NLP Engineer (команда GigaChat Pretrain)

По договоренности


Мы в GigaChat делаем core-технологию генеративной языковой модели: она пишет тексты, генерирует изображения, пишет код, отвечает на вопросы и ведёт диалоги.

Прошлой осенью мы выпустили сильную русскоязычную модель GigaChat MAX уровня GPT-4 (метрики - в статье на Habr). Зимой выложили в открытый доступ одну из наших MoE-моделей. И на этом не остановились - двигаемся дальше!

Сейчас у нас фокус в несколько направлений:

1. Исследования и эксперименты

  • стабилизация и развитие архитектур (новые виды attention, улучшение тестового стенда изменений)
  • методы улучшения обучения (оптимизация, лоссы и режимы вроде FIM/MTP, балансировка MoE)
  • скейлинг-законы (для гиперпараметров, качества и стоимости)
  • постоянный разбор свежих статей и идей индустрии.

2. Инфраструктура и параллельные тренировки

5-D параллелизм, ускорение мультимодальных и гигантских MoE-моделей на больших кластерах.

3. Фреймворк распределённого обучения

Разработка GigaFSDP, эксперименты с FP8/mixed-precision, устойчивость и эффективность обучения на больших масштабах.

4. Низкоуровневые оптимизации

Оптимизация операций на уровне CUDA/triton ядер, улучшение производительности NCCL, профилирование и устранение узких мест.

5. Качество и метрики

Развитие оценки GigaChat: от международных олимпиадных задач до метрик, специфичных для русского языка.

Ищем NLP Engineer, с кем будем делать GigaChat умнее. Для экспериментов у нас кластер с большим числом A100/H100.

Обязанности

  • доводить качество на русском до уровня ChatGPT и выше
  • придумывать и проверять идеи, которые дают практический выигрыш
  • помогать решать задачи внутренних клиентов Сбера - с прицелом на внешних пользователей
  • следить за индустрией: читать статьи, быстро проверять гипотезы, делиться результатами.

Требования

  • уверенный Python и PyTorch
  • база по алгоритмам и математике (линейная алгебра, оптимизация, вероятности)
  • опыт обучения DL-моделей: от «просто моделей» до больших
  • теоретическое понимание алгоритмов распределенного обучения
  • представление о текущем ландшафте LLM и трендах.

Плюсом будет:

  • опыт с распределённым обучением (DDP/FSDP/параллелизмы), CUDA/NCCL/профилирование, MoE/FP8, мультимодальные модели, построение метрик качества.

Условия

  • удалённо по всей России
  • возможность оформления в аккредитованную IT-компанию
  • годовая премия по итогам работы
  • регулярный пересмотр зарплат
  • корпоративный спортзал и зоны отдыха
  • более 400 программ СберУниверситета для роста
  • программа адаптации и помощь руководителя на старте
  • крупнейшее DS&AI community – более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы
  • ДМС, льготное страхование для семьи, корпоративная пенсионная программа
  • ипотека для сотрудников по дисконтной программе
  • СберПрайм+ и скидки у партнёров
  • бонус за рекомендации в команду.

Поделиться:

Опубликована 4 дня назад

Похожие вакансии

red_mad_robot — технологическая компания с экспертизой в запуске цифровых продуктов и новых бизнесов. Включает red_mad_robot AI — центр исследований и разработки ИИ-решений. Мы расширяем команду и ищем опытного Специалист технической поддержки / IT S...
  • Полный день
  • Опыт от 3 лет
Логотип компании red_mad_robotred_mad_robot
  • Москва
10 дней назад
Задачи: Настройка и сопровождение рабочих мест (Windows, macOS, iOS, Android, Linux); Поддержка мобильной техники, ноутбуков, планшетов, периферии Интеграция пользовательских устройств с корпоративными ИТ-системами; Поддержка сервисов Microsoft (AD, ...
  • Полный день
  • Опыт от 3 лет
Логотип компании Управляющая компания РОСНАНОУправляющая компания РОСНАНО
  • Москва
19 дней назад
Задачи: Настройка и сопровождение рабочих мест (Windows, macOS, iOS, Android, Linux); Поддержка мобильной техники, ноутбуков, планшетов, периферии Интеграция пользовательских устройств с корпоративными ИТ-системами; Поддержка сервисов Microsoft (AD, ...
  • Полный день
  • Опыт от 3 лет
Логотип компании Управляющая компания РОСНАНОУправляющая компания РОСНАНО
  • Москва
20 дней назад
КОМПАНИЯ «АЙ-ТЕКО» - ведущий российский системный интегратор и поставщик информационных технологий для корпоративных заказчиков. Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП-10 крупнейших IT-к...
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
13 дней назад
Мечтай о большем с Napoleon IT Мы — не просто IT-компания, а место, в котором искусственный интеллект объединяется с человеческим. Мы — это более 250 сотрудников, 3 офиса в России, 3 разных направления развития: заказная разработка, outstaffing, собс...
  • Полный день
  • Опыт от 3 лет
Логотип компании Napoleon ITNapoleon IT
  • Москва
6 дней назад
Data Engineer / Data Architect (крупная международная FMCG-компания) Формат: гибрид — 1 день в неделю в офисе, м. Сокол Мы приглашаем Data Engineer уровня архитектора в команду, которая является ключевым IT-партнёром eCommerce-функции крупной междуна...
  • Полный день
  • Опыт от 3 лет
Логотип компании ARKARK
  • Москва
12 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.