NLP Engineer (GigaChat Pretrain)

По договоренности


Эта вакансия – участник пилота по использованию AI.

После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры.

ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным.

Попробуйте — и вы станете одним из первых, кто познакомится с ГигаРекрутером Сбера!

Мы в GigaChat делаем core-технологию генеративной языковой модели: она пишет тексты, генерирует изображения, пишет код, отвечает на вопросы и ведёт диалоги.

Прошлой осенью мы выпустили сильную русскоязычную модель GigaChat MAX уровня GPT-4 (метрики — в статье на Habr). Зимой выложили в открытый доступ одну из наших MoE-моделей. И на этом не остановились — двигаемся дальше!

Сейчас у нас фокус в несколько направлений:

Исследования и эксперименты.

  • Стабилизация и развитие архитектур (новые виды attention, улучшение тестового стенда изменений).
  • Методы улучшения обучения (оптимизация, лоссы и режимы вроде FIM/MTP, балансировка MoE).
  • Скейлинг-законы (для гиперпараметров, качества и стоимости).
  • Постоянный разбор свежих статей и идей индустрии.

Инфраструктура и параллельные тренировки.

  • 5-D параллелизм, ускорение мультимодальных и гигантских MoE-моделей на больших кластерах.

Фреймворк распределённого обучения.

  • Разработка GigaFSDP, эксперименты с FP8/mixed-precision, устойчивость и эффективность обучения на больших масштабах.

Низкоуровневые оптимизации.

  • Оптимизация операций на уровне CUDA/triton ядер, улучшение производительности NCCL, профилирование и устранение узких мест.

Качество и метрики.

  • Развитие оценки GigaChat: от международных олимпиадных задач до метрик, специфичных для русского языка.

Ищем NLP Engineer, с которым будем делать GigaChat умнее. Для экспериментов у нас — кластер с большим числом A100/H100.

обязанности

Обязанности

  • Доводить качество на русском до уровня ChatGPT и выше.
  • Придумывать и проверять идеи, которые дают практический выигрыш.
  • Помогать решать задачи внутренних клиентов Сбера — с прицелом на внешних пользователей.
  • Следить за индустрией: читать статьи, быстро проверять гипотезы, делиться результатами.

Требования

  • Уверенный Python и PyTorch.
  • База по алгоритмам и математике (линейная алгебра, оптимизация, вероятности).
  • Опыт обучения DL-моделей: от «просто моделей» до больших.
  • Теоретическое понимание алгоритмов распределенного обучения.
  • Представление о текущем ландшафте LLM и трендах.

Плюсом будет:

  • Опыт с распределённым обучением (DDP/FSDP/параллелизмы), CUDA/NCCL/профилирование, MoE/FP8, мультимодальные модели, построение метрик качества.

Даже если у тебя нет опыта с LLM, но ты много занимался NLP исследованиями или инженерными оптимизациями — не стесняйся откликнуться!

Условия

  • Удалённо по России.
  • Возможность оформления в аккредитованную IT-компанию.
  • Годовая премия по итогам работы до 6 окладов.
  • Регулярный пересмотр зарплат.
  • Корпоративный спортзал и зоны отдыха.
  • Более 400 программ СберУниверситета для роста.
  • Программа адаптации и помощь руководителя на старте.
  • Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
  • Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
  • Ипотека для сотрудников по дисконтной программе.
  • СберПрайм+ и скидки у партнёров.
  • Бонус за рекомендации в команду.

Поделиться:

Опубликована 15 часов назад

Похожие вакансии

до 150 000 ₽
Technopeak.ae is a leading provider of IT solutions and services across the Middle East. As our Remote Support division continues to expand, we are looking for an experienced and reliable 3rd Line Server Support Engineer to join our team. This role i...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Первый БитПервый Бит
  • Москва
8 дней назад
Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. Наш штат насчитывает 3400+ специалистов. Мы разрабатываем программное обеспечение и IT-решения в сферах Finance, Healthcare, eCommerce, IoT, Media, Big Data, ML и многом друг...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Москва
15 часов назад
Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. Наш штат насчитывает 3400+ специалистов. Мы разрабатываем программное обеспечение и IT-решения в сферах Finance, Healthcare, eCommerce, IoT, Media, Big Data, ML и многом друг...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Москва
4 дня назад
The Visa Services — ведущее визовое агентство в ОАЭ 2025 года по версии World Travel Awards. Мы помогаем клиентам открывать мир без границ: оформляем визы в Шенген, США, Японию, Китай и другие страны, сочетая экспертность, скорость и высокий уровень ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Филиал The Visa Services в г. МоскваФилиал The Visa Services в г. Москва
  • Москва
15 часов назад
Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. Наш штат насчитывает 3400+ специалистов. Мы разрабатываем программное обеспечение и IT-решения в сферах Finance, Healthcare, eCommerce, IoT, Media, Big Data, ML и многом друг...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Москва
5 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.