Исследователь-разработчик в DL/RL (дообучение LLM, RLHF, асинхронный RL)
190 000 - 250 000 ₽
- Физтех
- Лианозово
- Водники
О проекте:
Центр когнитивного моделирования запускает исследовательско-инженерный проект по дообучению LLM для задач рассуждения (Qwen, Llama и другие модели с открытыми весами).
Наша цель: значительно ускорить обучение без заметной потери качества за счёт асинхронного RL, off-policy-коррекций, постепенного усложнения задач и квантизованного инференса.
Мы ищем strong junior/ middle разработчика с уклоном в research, который не просто дообучает модели, а предлагает идеи и проверяет их экспериментально.
Чем тебе предстоит заниматься:
- Исследовать и реализовывать методы асинхронного RL и дообучения LLM
- Предлагать исследовательские гипотезы, ставить эксперименты и проверять их на задачах рассуждения
- Развивать инфраструктуру обучения и инференса: PyTorch, vLLM/TGI, низкоразрядный инференс
- Строить воспроизводимые пайплайны и быстро проверять исследовательские гипотезы
- При желании участвовать в подготовке A* публикаций по результатам работы.
Чего мы ждём от тебя:
Нам важны сильная база, самостоятельность и способность быстро входить в сложную исследовательскую задачу.
Если у вас есть сильная база в одной из областей, то эта вакансия для вас:
- Уверенный Python / PyTorch и опыт обучения моделей
- Сильный опыт хотя бы в одной из областей:
RL / RLHF / PPO / DPO / GRP
дообучение LLM
распределённое обучение на нескольких GPU
- Умение читать статьи, превращать идеи в эксперименты и доводить их до результата
- Linux, Docker, Git
- Технический английский на высоком уровне.
Будет плюсом:
- Off-policy RL, importance sampling, SAC, V-trace
- DeepSpeed, FSDP, VERL, OpenRLHF, SampleFactory
- vLLM или TGI
- FP8 / INT8 quantization
- Curriculum learning - постепенное усложнение задач / адаптивная выборка
- Опыт работы с бенчмарками на задачи рассуждения
- Публикации на сильных конференциях
Важно
Не обязательно совпадать со всем списком - глубина в одной из областей и способность быстро разбираться в новом для нас важнее формального покрытия.
Что мы предлагаем:
- Задачу на переднем крае: асинхронный RL и дообучение LLM для задач рассуждения;
- Доступ к GPU-кластеру и возможность быстро проверять гипотезы;
- Сильную исследовательскую команду с опытом публикаций на ICLR, NeurIPS, AAAI, ACL и других ведущих международных конференциях;
Организационные детали:
- Работа в ведущем техническом вузе страны, в городе Долгопрудный (рядом со станцией Новодачная МЦД-1 или 15 минут от метро Алтуфьево, Ховрино, Физтех);
- Оформление в соответствии с ТК РФ;
- Возможность бесплатного посещения бассейна и тренажерного зала, концертов, тренингов, и других интересных мероприятий в кампусе МФТИ;
- Перед началом процесса собеседования просим вас заказать справку о наличии (отсутствии) судимости. Она понадобится на финальном этапе трудоустройства.
Такую справку можно заказать на Госуслугах в электронном виде.
Срок изготовления справки может занять до 30 дней, просим заранее позаботиться о её получении.
Институт ИИ МФТИ – ведущий институт по искусственному интеллекту в России. В состав Института входят сильнейшие ученые и ключевые лаборатории Физтеха по направлениям: оптимизация для ИИ, Робототехника, Генеративный ИИ, Компьютерное зрение и Математическое моделирование. Цель Института - создание прорывных научных исследований и прикладных разработок для ключевых отраслей экономики страны.
Немного о нас в цифрах:
1-е место среди технических вузов России в международных рейтинге THE и CWUR (2026);
1-е место в предметном рейтинге RAEX по направлению "Информационные технологии" (2025);
1-е место в рейтинге передовых инженерных школ (2025);
1-е место в рейтинге вузов России по качеству приёма (2025);
Лидер в рейтинге вузов по качеству подготовки специалистов в области искусственного интеллекта (2025).
Опубликована день назад
Похожие вакансии
- Полный день
- Опыт от 1 года
- Долгопрудный