Разработчик инфраструктуры RL-обучения LLM

По договоренности

Яндекс

Москва

Третьяковская
Новокузнецкая
Третьяковская

⚡ Откликнуться на hh.ru

О вакансии

Мы создаём инфраструктуру для обучения и дообучения больших языковых (LLM) и визуально-языковых (VLM) моделей, которые используются в Алисе, Поиске, Рекламе и других сервисах Яндекса. Современное обучение таких моделей — это сложная система, которая включает десятки тысяч серверов, миллионы вычислительных ядер и многоуровневые соединения между ними. Наша задача — сделать эту систему максимально эффективной, рационально используя вычислительные ресурсы и минимизируя риски сбоев.

Обучение моделей превратилось в задачу управления сложными распределёнными системами. Нужно обеспечивать отказоустойчивость, эффективную доставку данных и минимизировать задержки в коммуникациях. Чем сложнее система, тем больше точек отказа, а чем больше ресурсов нужно на обучение, тем выше накладные расходы на запуск. Наша команда работает на стыке ML-математики и «железной» инфраструктуры: мы должны понимать и особенности аппаратного обеспечения (GPU, сети, шины данных, диски, память), и нюансы самого процесса обучения: составные части, взаимодействие компонентов, узкие места.

Один из популярных подходов к обучению LLM — обучение с подкреплением, Reinforcement Learning, RL. С ростом популярности этого метода появляются всё более сложные подходы, увеличивается потребность в вычислительных ресурсах — и, как следствие, возникает необходимость строить специализированную инфраструктуру.

Какие задачи вас ждут:

Оптимизация инфраструктуры RL-обученияВам предстоит улучшать ключевые компоненты: оптимизировать доставку и сохранение данных, оптимизировать коммуникации между блоками обучения, повышать эффективность работы внутри блоков.
Развитие инструментов диагностики
Вы будете создавать и совершенствовать инструменты, которые позволят быстро выявлять и устранять инфраструктурные проблемы..
Повышение отказоустойчивости инфраструктуры
Предстоит реализовывать подходы, которые сделают инфраструктуру обучения устойчивой к различным ошибкам и сбоям.
Исследование и внедрение современных решений
Будете изучать новейшие подходы к организации инфраструктуры RL-обучения, оценивать их эффективность и внедрять в реальные проекты.

Мы ждем, что вы:

Знаете Python и имеете опыт системного программирования, разработки библиотек или фреймворков
Хорошо знакомы и работали на практике с фреймворком PyTorch и распределённым обучением через torch.distributed
Владеете подходами параллелизации: понимаете data parallelism, tensor parallelism, pipeline parallelism, expert parallelism для распределённого инференса или обучения
Интересуетесь LLM и MLOps: понимаете задачи и вызовы, которые связаны с эксплуатацией больших моделей в продакшне
Умеете эффективно работать в команде и делиться знаниями

Будет плюсом, если вы:

Участвовали в создании инфраструктуры обучения ML-моделей
Внедряли и оптимизировали RL-решения
Работали с библиотеками RL-обучения для LLM: veRL, slime, NeMo-RL, SkyRL и другими, а также с библиотеками инференса: vLLM, SGLang и TRTLLM
Владеете C++ и имеете опыт низкоуровневого программирования и оптимизации
Имеете опыт с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton

⚡ Откликнуться на hh.ru

Адрес: Россия, Москва, улица Льва Толстого, 16

Показать на большой карте

Опубликована 11 часов назад

Backend-разработчик Python/Питон разработчик

Мы активно растем, задач становится все больше, поэтому мы в поиске Backend разработчика. ... Backend-разработчик Python/Питон разработчик в Рег.облако Чем предстоит заниматься: поддерживать и развивать ...

Можно удаленно
Полный день
Опыт от 3 лет

Рунити

Москва

2 дня назад

⚡ Откликнуться на hh.ru

Golang-разработчик

О проекте: Команда технической платформы будет создавать универсальные сервисы, которые будут использоваться всеми командами компании для повышения эффективности разработки. Проектировать общие сервисы, которые легко переиспользуются сразу нескольким...

Можно удаленно
Полный день
Опыт от 3 лет

Финфрейм

Москва

11 часов назад

⚡ Откликнуться на hh.ru

Python-разработчик

до 300 000 ₽

Выше средней на 33%

... бизнес-процессы и понятные стандарты работы обеспечивают стабильность и прогнозируемый результат Мы ищем опытного разработчика ...

Можно удаленно
Полный день
Опыт от 3 лет

Группа Компаний Аскона

Москва

11 часов назад

⚡ Откликнуться на hh.ru

Python-разработчик

BASIS — разработчик программных продуктов для оказания облачных услуг и платформы динамической инфраструктуры ...

Можно удаленно
Полный день
Опыт от 3 лет

БАЗИС

Москва

11 часов назад

⚡ Откликнуться на hh.ru

Golang-разработчик

Чем предстоит заниматься: разработкой новых и поддержкой существующих сервисов на языке Golang; проектированием архитектуры, выбором инструментов; проведением код-ревью; рефакторингом и оптимизацией кода; написанием юнит-тестов; написанием документац...

Можно удаленно
Полный день
Опыт от 3 лет

X5 Digital

Москва

11 часов назад

⚡ Откликнуться на hh.ru

Разработчик ЦФТ

Мы российская быстрорастущая платформа, созданная для взаимодействия разработчиков и ведущих компаний ... У нас множество компаний-партнёров, которые готовы принять к себе в команду Разработчика ЦФТ для работы ... бизнес заказчиками Требования: Опыт работы с базами данных Опыт работы с АБС «ЦФТ-Банк» в качестве разработчика ...

Можно удаленно
Полный день
Опыт от 3 лет

Volna.tech

Москва

11 часов назад

⚡ Откликнуться на hh.ru

Разработчик инфраструктуры RL-обучения LLM

По договоренности

Похожие вакансии

Backend-разработчик Python/Питон разработчик

Golang-разработчик

Python-разработчик

Python-разработчик

Golang-разработчик

Разработчик ЦФТ

Вакансия в подборках

Похожие вакансии