Senior DL/LLM engineer (Pretrain/RL Efficiency)

По договоренности


Наша команда отвечает за эффективность обучения моделей GigaChat: от pretraining с нуля до масштабных online RL / RLHF экспериментов. Мы строим инфраструктуру, которая позволяет проводить large-scale обучение на больших MoE-моделях, добиваясь предельной эффективности использования кластера. Работаем на всех уровнях стека: от CUDA/Triton-ядер и низкоуровневых оптимизаций до распределённого обучения и ускорения инференса.

Цель — снизить стоимость и длительность обучения, сократить time-to-feedback по экспериментам, повысить стабильность и производительность пайплайна, сделать обучение новых/экспериментальных архитектур максимально эффективным и предсказуемым.

Обязанности

  • развивать ML-инфраструктуру и разрабатывать фреймворк распределенного обучения LLM с поддержкой 5D параллелизма и позволяет обучать LLM на всех этапах (pre-training, SFT, PEFT, multimodal, RL (RLHF/RLVR))
  • добиваться максимальной утилизации ресурсов и масштабирования, близкого к линейному, для крупномасштабных pretrain / online-RL обучений
  • профилировать и искать узкие места в обучении, формулировать и внедрять инициативы по ускорению, интегрировать и оптимизировать современные технологии распределенного обучения
  • оптимизировать скорость обучения под различные кластеры H100/B200 и системный/софтверный стек (CUDA, NCCL, драйверы).

Требования

  • имеете 2+ лет опыта в ML/DL-инженерии, предпочтительно — в обучении LLM-моделей или построении / улучшении ML-инфраструктуры
  • глубоко понимаете PyTorch: DDP/FSDP, autograd, custom ops, torch.compile, torch.autograd.Function.
  • разбираетесь в distributed training и efficient deep learning: 5D (DP/TP/PP/EP/SP) - параллелизм, mixed-precision, checkpointing, offloading, профилирование и оптимизация обучения.
  • понимаете архитектуру LLM: Transformer, attention (MHA/GQA/MLA), RoPE/позиционные эмбеддинги, long-context, MoE.
  • владеете Python на уровне продакшн-кода (asyncio, multiprocessing, профилирование, отладка больших систем).

Условия

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность выбрать удобный формат работы: гибрид или офис
  • комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.

Поделиться:

Опубликована 17 часов назад

Похожие вакансии

Managing the inventory for all local IT equipment. ... Act as an escalation to global or local IT issues to the BTS IT Director or global reporting line. ... Minimum 2 years in a supervisor IT support role and overall, 5+ years’ experience in IT.
  • Полный день
  • Опыт от 3 лет
Логотип компании AbbVieAbbVie
  • Москва
11 дней назад
Задачи: Настройка и сопровождение рабочих мест (Windows, macOS, iOS, Android, Linux); Поддержка мобильной техники, ноутбуков, планшетов, периферии Интеграция пользовательских устройств с корпоративными ИТ-системами; Поддержка сервисов Microsoft (AD, ...
  • Полный день
  • Опыт от 3 лет
Логотип компании Управляющая компания РОСНАНОУправляющая компания РОСНАНО
  • Москва
24 дня назад
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -5 крупнейших IT-компаний России. ... В связи с расширением проектов у нас открыта вакансия DATA ENGINEER.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
2 дня назад
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Processing Engineer.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
4 дня назад
до 210 000 ₽
Выше средней на 16%
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Engineer.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
2 дня назад
Сейчас у нас открыта вакансия Enterprise Engineer в команду, которая занимается поддержкой, обслуживанием ... Экспертная поддержка территориально распределённых IT-подразделений. ... Экспертная поддержка территориально распределенных IT-подразделений.
  • Полный день
  • Опыт от 3 лет
Логотип компании Леста ИгрыЛеста Игры
  • Москва
8 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.