NLP engineer (GigaChat Pretrain Data)

По договоренности


Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.

Обязанности:

  • генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web
  • исследовать токенизацию и ее влияния на качество модели (возможно написание статей)
  • решать задачи кластеризации миллиардов документов
  • исследовать разные факторы, которыми обладают текстовые данные
  • генерировать Vision данные для прокачки VLM
  • разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели
  • исследовать зависимости между pretrain данными и agentic capabilities итоговой модели
  • разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными.

Требования:

  • выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий
  • имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет
  • навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом
  • опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
  • инструментальное владение AI для анализа, генерации и автоматизации.

Условия:

  • комфортный современный офис рядом с м. Кутузовская
  • гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • система обучения для профессионального и карьерного развития
  • расширенный полис ДМС с первого дня работы и страхование для семьи
  • льготная программа ипотеки для сотрудников
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.


Поделиться:

Опубликована 23 дня назад

Похожие вакансии

Мы ищем Middle Data Engineer в команду «Данные СберНПФ». Проект включает работу с корпоративным хранилищем данных и реализацию стандарта МСФО 17. Чем предстоит заниматься: Настройка потоков данных для отчетности МСФО 17 Реверс-инжиниринг существующих...
  • Полный день
  • Опыт от 3 лет
Логотип компании СБЕРКОРУССБЕРКОРУС
  • Москва
2 дня назад
Компания АО «АСТ» аккредитована Минцифры РФ, как системный интегратор, предоставляем комплексные инновационные решения по обеспечению информационной безопасности, разработке ПО и внедрению интеллектуальных информационно-аналитических систем. Входим в...
  • Полный день
  • Опыт от 3 лет
Логотип компании АСТАСТ
  • Москва
5 часов назад
Леста Игры разрабатывает игровые проекты в различных жанрах, смело экспериментирует с инструментами и технологиями. В офисах компании в Санкт-Петербурге, Минске, Москве и Ташкенте работает более 2000 талантливых профессионалов. Мы делаем игры, которы...
  • Полный день
  • Опыт от 3 лет
Логотип компании Леста ИгрыЛеста Игры
  • Москва
2 дня назад
BIG DATA МТС – место, где телеком данные превращаются в реально работающие IT-продукты. Мы создали и протестировали несколько десятков сервисов. Самые успешные из них уже стали частью экосистемы МТС. Например, МТС Маркетолог, рекомендации в KION (МТС...
  • Полный день
  • Опыт от 3 лет
Логотип компании МТСМТС
  • Москва
6 дней назад
Компания «АЙ-ТЕКО» — ведущий российский системный интегратор и поставщик информационных технологий для корпоративных заказчиков. Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП-10 крупнейших IT-к...
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
12 дней назад
до 220 000 ₽
Рыночная зарплата
КОМПАНИЯ «АЙ-ТЕКО» - ведущий российский системный интегратор и поставщик информационных технологий для корпоративных заказчиков. Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП-10 крупнейших IT-к...
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
11 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.