DL/LLM engineer (Pretrain/RL Efficiency)

По договоренности


Наша команда отвечает за эффективность обучения моделей GigaChat: от pretraining с нуля до масштабных online RL / RLHF экспериментов. Мы строим инфраструктуру, которая позволяет проводить large-scale обучение на больших MoE-моделях, добиваясь предельной эффективности использования кластера. Работаем на всех уровнях стека: от CUDA/Triton-ядер и низкоуровневых оптимизаций до распределённого обучения и ускорения инференса.

Цель — снизить стоимость и длительность обучения, сократить time-to-feedback по экспериментам, повысить стабильность и производительность пайплайна, сделать обучение новых/экспериментальных архитектур максимально эффективным и предсказуемым.

Обязанности

развивать ML-инфраструктуру и разрабатывать фреймворк распределенного обучения LLM с поддержкой 5D параллелизма и позволяет обучать LLM на всех этапах (pre-training, SFT, PEFT, multimodal, RL (RLHF/RLVR))

добиваться максимальной утилизации ресурсов и масштабирования, близкого к линейному, для крупномасштабных pretrain / online-RL обучений

профилировать и искать узкие места в обучении, формулировать и внедрять инициативы по ускорению, интегрировать и оптимизировать современные технологии распределенного обучения

оптимизировать скорость обучения под различные кластеры H100/B200 и системный/софтверный стек (CUDA, NCCL, драйверы).

Требования

  • имеете 2+ лет опыта в ML/DL-инженерии, предпочтительно — в обучении LLM-моделей или построении / улучшении ML-инфраструктуры
  • глубоко понимаете PyTorch: DDP/FSDP, autograd, custom ops, torch.compile, torch.autograd.Function.
  • разбираетесь в distributed training и efficient deep learning: 5D (DP/TP/PP/EP/SP) - параллелизм, mixed-precision, checkpointing, offloading, профилирование и оптимизация обучения.
  • понимаете архитектуру LLM: Transformer, attention (MHA/GQA/MLA), RoPE/позиционные эмбеддинги, long-context, MoE.
  • владеете Python на уровне продакшн-кода (asyncio, multiprocessing, профилирование, отладка больших систем).

Условия

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность выбрать удобный формат работы: гибрид или офис
  • комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.

Поделиться:

Опубликована 9 часов назад

Похожие вакансии

Мы расширяем команду и ищем опытного Специалист технической поддержки / IT Support Engineer (L1–L2) Что ...
  • Полный день
  • Опыт от 3 лет
Логотип компании red_mad_robotred_mad_robot
  • Москва
месяц назад
до 150 000 ₽
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Engineer.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
9 часов назад
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия DATA ENGINEER.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
9 часов назад
до 240 000 ₽
Выше средней на 28%
... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Engineer. ... НАШИ ОЖИДАНИЯ ОТ УСПЕШНОГО КАНДИДАТА: Опыт работы в роли data engineer ≈ 5 лет (Обязательно); Опыт работы ...
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
6 дней назад
до 220 000 ₽
Выше средней на 17%
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Engineer/Data аналитика.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
9 часов назад
Sales Engineer - сотрудник, который знает как общаться с заказчиками на бизнесовом языке, погружен в ... Понимание процесса запуска IT-проектов. ... Работа в аккредитованной IT-компании.
  • Полный день
  • Опыт от 3 лет
Логотип компании VoximplantVoximplant
  • Москва
9 часов назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.