NLP Engineer (GigaChat Pretrain)

По договоренности


Эта вакансия – участник пилота по использованию AI.

После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры.

ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным.

Попробуйте — и вы станете одним из первых, кто познакомится с ГигаРекрутером Сбера!

Мы в GigaChat делаем core-технологию генеративной языковой модели: она пишет тексты, генерирует изображения, пишет код, отвечает на вопросы и ведёт диалоги.

Прошлой осенью мы выпустили сильную русскоязычную модель GigaChat MAX уровня GPT-4 (метрики — в статье на Habr). Зимой выложили в открытый доступ одну из наших MoE-моделей. И на этом не остановились — двигаемся дальше!

Сейчас у нас фокус в несколько направлений:

Исследования и эксперименты.

  • Стабилизация и развитие архитектур (новые виды attention, улучшение тестового стенда изменений).
  • Методы улучшения обучения (оптимизация, лоссы и режимы вроде FIM/MTP, балансировка MoE).
  • Скейлинг-законы (для гиперпараметров, качества и стоимости).
  • Постоянный разбор свежих статей и идей индустрии.

Инфраструктура и параллельные тренировки.

  • 5-D параллелизм, ускорение мультимодальных и гигантских MoE-моделей на больших кластерах.

Фреймворк распределённого обучения.

  • Разработка GigaFSDP, эксперименты с FP8/mixed-precision, устойчивость и эффективность обучения на больших масштабах.

Низкоуровневые оптимизации.

  • Оптимизация операций на уровне CUDA/triton ядер, улучшение производительности NCCL, профилирование и устранение узких мест.

Качество и метрики.

  • Развитие оценки GigaChat: от международных олимпиадных задач до метрик, специфичных для русского языка.

Ищем NLP Engineer, с которым будем делать GigaChat умнее. Для экспериментов у нас — кластер с большим числом A100/H100.

обязанности

Обязанности

  • Доводить качество на русском до уровня ChatGPT и выше.
  • Придумывать и проверять идеи, которые дают практический выигрыш.
  • Помогать решать задачи внутренних клиентов Сбера — с прицелом на внешних пользователей.
  • Следить за индустрией: читать статьи, быстро проверять гипотезы, делиться результатами.

Требования

  • Уверенный Python и PyTorch.
  • База по алгоритмам и математике (линейная алгебра, оптимизация, вероятности).
  • Опыт обучения DL-моделей: от «просто моделей» до больших.
  • Теоретическое понимание алгоритмов распределенного обучения.
  • Представление о текущем ландшафте LLM и трендах.

Плюсом будет:

  • Опыт с распределённым обучением (DDP/FSDP/параллелизмы), CUDA/NCCL/профилирование, MoE/FP8, мультимодальные модели, построение метрик качества.

Даже если у тебя нет опыта с LLM, но ты много занимался NLP исследованиями или инженерными оптимизациями — не стесняйся откликнуться!

Условия

  • Удалённо по России.
  • Возможность оформления в аккредитованную IT-компанию.
  • Годовая премия по итогам работы до 6 окладов.
  • Регулярный пересмотр зарплат.
  • Корпоративный спортзал и зоны отдыха.
  • Более 400 программ СберУниверситета для роста.
  • Программа адаптации и помощь руководителя на старте.
  • Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
  • Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
  • Ипотека для сотрудников по дисконтной программе.
  • СберПрайм+ и скидки у партнёров.
  • Бонус за рекомендации в команду.

Поделиться:

Опубликована 23 дня назад

Похожие вакансии

Вакансия: Data Engineer / DWH Engineer / ETL Developer Компания: FOM GROUP Формат работы: удалённо График ... : 5/2, с 9:00 до 18:00 200 000-350 000₽ О компании FOM GROUP Мы — IT-компания в фармацевтической сфере ... Ищем Data Engineer (Middle) в команду разработки хранилища данных.
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании FOM GROUPFOM GROUP
  • Москва
7 дней назад
DevOps Engineer Мы расширяем команду инженерной разработки и ищем DevOps Engineer (middle) для создания ... Обсуждается индивидуально в зависимости от уровня навыков, опыта и ожиданий кандидата DigitCore — инженерная IT-компания ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании DIGITCOREDIGITCORE
  • Москва
7 дней назад
Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. ... Предлагаем присоединиться в роли MLOps Engineer и работать над проектом заказчика. ... Новая, 28, коворкинг "VMESTE"), Самара (IT парк Монте Роза).
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Москва
7 дней назад
Какие знания и навыки нам важны: Опыт работы Data Engineer от 2 лет. ... Рыночную зарплату и премии Драйвовые задачи и ресурсы для их реализации Преимущества аккредитованной it-компании ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании ГКУ ИнфогородГКУ Инфогород
  • Москва
5 дней назад
до 170 000 ₽
Middle+ QA engineer (Срочный трудовой договор до 01.07.) ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Middle+/Senior QA engineer.
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
13 дней назад
Мы ищем AI Agent Engineer (Fullstack LLM Developer), который сможет создавать инновационные решения в ... формат работы (2 дня в неделю в офисе), Москва-Сити или удаленно из городов РФ; Работу в аккредитованной IT-компании ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании РСХБ-ИнтехРСХБ-Интех
  • Москва
5 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.