NLP engineer (GigaChat Pretrain Data)
По договоренности
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.
Обязанности:
- генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web
- исследовать токенизацию и ее влияния на качество модели (возможно написание статей)
- решать задачи кластеризации миллиардов документов
- исследовать разные факторы, которыми обладают текстовые данные
- генерировать Vision данные для прокачки VLM
- разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели
- исследовать зависимости между pretrain данными и agentic capabilities итоговой модели
- разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными.
Требования:
- выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий
- имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет
- навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом
- опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
- инструментальное владение AI для анализа, генерации и автоматизации.
Условия:
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- льготная программа ипотеки для сотрудников
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
Опубликована 23 дня назад
Похожие вакансии
Мы ищем Middle Data Engineer в команду «Данные СберНПФ». Проект включает работу с корпоративным хранилищем данных и реализацию стандарта МСФО 17. Чем предстоит заниматься: Настройка потоков данных для отчетности МСФО 17 Реверс-инжиниринг существующих...
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
Компания АО «АСТ» аккредитована Минцифры РФ, как системный интегратор, предоставляем комплексные инновационные решения по обеспечению информационной безопасности, разработке ПО и внедрению интеллектуальных информационно-аналитических систем. Входим в...
- Полный день
- Опыт от 3 лет
- Москва
5 часов назад
Леста Игры разрабатывает игровые проекты в различных жанрах, смело экспериментирует с инструментами и технологиями. В офисах компании в Санкт-Петербурге, Минске, Москве и Ташкенте работает более 2000 талантливых профессионалов. Мы делаем игры, которы...
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
BIG DATA МТС – место, где телеком данные превращаются в реально работающие IT-продукты. Мы создали и протестировали несколько десятков сервисов. Самые успешные из них уже стали частью экосистемы МТС. Например, МТС Маркетолог, рекомендации в KION (МТС...
- Полный день
- Опыт от 3 лет
- Москва
6 дней назад
Компания «АЙ-ТЕКО» — ведущий российский системный интегратор и поставщик информационных технологий для корпоративных заказчиков. Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП-10 крупнейших IT-к...
- Полный день
- Опыт от 3 лет
- Москва
12 дней назад
до 220 000 ₽
Рыночная зарплата
КОМПАНИЯ «АЙ-ТЕКО» - ведущий российский системный интегратор и поставщик информационных технологий для корпоративных заказчиков. Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП-10 крупнейших IT-к...
- Полный день
- Опыт от 3 лет
- Москва
11 дней назад