Разработчик инфраструктуры RL-обучения LLM

По договоренности

Яндекс

Москва

Третьяковская
Новокузнецкая
Третьяковская

⚡ Откликнуться на hh.ru

О вакансии

Мы создаём инфраструктуру для обучения и дообучения больших языковых (LLM) и визуально-языковых (VLM) моделей, которые используются в Алисе, Поиске, Рекламе и других сервисах Яндекса. Современное обучение таких моделей — это сложная система, которая включает десятки тысяч серверов, миллионы вычислительных ядер и многоуровневые соединения между ними. Наша задача — сделать эту систему максимально эффективной, рационально используя вычислительные ресурсы и минимизируя риски сбоев.

Обучение моделей превратилось в задачу управления сложными распределёнными системами. Нужно обеспечивать отказоустойчивость, эффективную доставку данных и минимизировать задержки в коммуникациях. Чем сложнее система, тем больше точек отказа, а чем больше ресурсов нужно на обучение, тем выше накладные расходы на запуск. Наша команда работает на стыке ML-математики и «железной» инфраструктуры: мы должны понимать и особенности аппаратного обеспечения (GPU, сети, шины данных, диски, память), и нюансы самого процесса обучения: составные части, взаимодействие компонентов, узкие места.

Один из популярных подходов к обучению LLM — обучение с подкреплением, Reinforcement Learning, RL. С ростом популярности этого метода появляются всё более сложные подходы, увеличивается потребность в вычислительных ресурсах — и, как следствие, возникает необходимость строить специализированную инфраструктуру.

Какие задачи вас ждут:

Оптимизация инфраструктуры RL-обученияВам предстоит улучшать ключевые компоненты: оптимизировать доставку и сохранение данных, оптимизировать коммуникации между блоками обучения, повышать эффективность работы внутри блоков.
Развитие инструментов диагностики
Вы будете создавать и совершенствовать инструменты, которые позволят быстро выявлять и устранять инфраструктурные проблемы..
Повышение отказоустойчивости инфраструктуры
Предстоит реализовывать подходы, которые сделают инфраструктуру обучения устойчивой к различным ошибкам и сбоям.
Исследование и внедрение современных решений
Будете изучать новейшие подходы к организации инфраструктуры RL-обучения, оценивать их эффективность и внедрять в реальные проекты.

Мы ждем, что вы:

Знаете Python и имеете опыт системного программирования, разработки библиотек или фреймворков
Хорошо знакомы и работали на практике с фреймворком PyTorch и распределённым обучением через torch.distributed
Владеете подходами параллелизации: понимаете data parallelism, tensor parallelism, pipeline parallelism, expert parallelism для распределённого инференса или обучения
Интересуетесь LLM и MLOps: понимаете задачи и вызовы, которые связаны с эксплуатацией больших моделей в продакшне
Умеете эффективно работать в команде и делиться знаниями

Будет плюсом, если вы:

Участвовали в создании инфраструктуры обучения ML-моделей
Внедряли и оптимизировали RL-решения
Работали с библиотеками RL-обучения для LLM: veRL, slime, NeMo-RL, SkyRL и другими, а также с библиотеками инференса: vLLM, SGLang и TRTLLM
Владеете C++ и имеете опыт низкоуровневого программирования и оптимизации
Имеете опыт с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton

⚡ Откликнуться на hh.ru

Адрес: Россия, Москва, улица Льва Толстого, 16

Показать на большой карте

Опубликована 18 дней назад

Python-разработчик

АО «НТЦ ИТ РОСА» — это место, где технологии встречаются с креативом и профессионализмом. Мы создаём операционные системы на базе собственного Linux-дистрибутива, развиваем инфраструктурные и облачные сервисы, системы виртуализации, а также разработа...

Можно удаленно
Полный день
Опыт от 3 лет

НТЦ ИТ РОСА

Москва

13 часов назад

⚡ Откликнуться на hh.ru

Java-разработчик

120 000 - 150 000 ₽

Java-разработчик (проект сроком на 6 месяцев) О компании: Core — это динамично развивающаяся IT-компания, специализирующаяся на предоставлении аутстаффинговых решений для банковского и корпоративного сектора. Мы сотрудничаем с крупными банками и техн...

Можно удаленно
Подработка
Опыт от 3 лет

CORE

Москва

2 дня назад

⚡ Откликнуться на hh.ru

Frontend-разработчик

Мы – РТК ИТ, федеральная компания с подразделениями в 7 субъектах РФ. Мы занимаемся полным циклом разработки программных продуктов, направленных на развитие и повышение эффективности бизнеса группы компаний «Ростелеком». Наши ИТ-решения, отвечают сов...

Можно удаленно
Полный день
Опыт от 3 лет

Ростелеком Информационные Технологии

Москва

2 дня назад

⚡ Откликнуться на hh.ru

IOS-Разработчик

С 1997 года команда «Ренессанс страхование» помогает нашим клиентам — таким же людям, как и мы сами — в сложных ситуациях. Мы прошли путь от классической страховой компании до компании InsurTech, которая цифровизирует процессы на всем пути клиента и ...

Можно удаленно
Полный день
Опыт от 3 лет

Ренессанс cтрахование, Группа

Москва

2 дня назад

⚡ Откликнуться на hh.ru

Разработчик 1С

ПЕРВЫЙ БИТ— международная ИТ-компания. Мы занимаемся автоматизацией бизнеса любого масштаба, интегрируем в него цифровые решения, при этом сохраняем тепло человеческого контакта с Клиентом. В департаменте внедрения Центрального офиса открыта вакансия...

Можно удаленно
Полный день
Опыт от 3 лет

Первый Бит

Москва

3 дня назад

⚡ Откликнуться на hh.ru

Java-разработчик

Проектный офис реинжиниринга архитектуры цифровых решений государственных сервисов Обязанности: Разработка и поддержка серверной части приложений на Kotlin, Java (8, 11, 17) Реверс-инжиниринг существующей кодовой базы Проектирование архитектуры и опт...

Можно удаленно
Полный день
Опыт от 3 лет

Ростелеком

Москва

3 дня назад

⚡ Откликнуться на hh.ru

Разработчик инфраструктуры RL-обучения LLM

По договоренности

Похожие вакансии

Python-разработчик

Java-разработчик

Frontend-разработчик

IOS-Разработчик

Разработчик 1С

Java-разработчик

Вакансия в подборках

Похожие вакансии