О проекте:

Центр когнитивного моделирования запускает исследовательско-инженерный проект по дообучению LLM для задач рассуждения (Qwen, Llama и другие модели с открытыми весами).

Наша цель: значительно ускорить обучение без заметной потери качества за счёт асинхронного RL, off-policy-коррекций, постепенного усложнения задач и квантизованного инференса.

Мы ищем strong junior/ middle разработчика с уклоном в research, который не просто дообучает модели, а предлагает идеи и проверяет их экспериментально.

Чем тебе предстоит заниматься:

Исследовать и реализовывать методы асинхронного RL и дообучения LLM
Предлагать исследовательские гипотезы, ставить эксперименты и проверять их на задачах рассуждения
Развивать инфраструктуру обучения и инференса: PyTorch, vLLM/TGI, низкоразрядный инференс
Строить воспроизводимые пайплайны и быстро проверять исследовательские гипотезы
При желании участвовать в подготовке A* публикаций по результатам работы.

Чего мы ждём от тебя:

Нам важны сильная база, самостоятельность и способность быстро входить в сложную исследовательскую задачу.
Если у вас есть сильная база в одной из областей, то эта вакансия для вас:

Уверенный Python / PyTorch и опыт обучения моделей
Сильный опыт хотя бы в одной из областей:

RL / RLHF / PPO / DPO / GRP

дообучение LLM

распределённое обучение на нескольких GPU

Умение читать статьи, превращать идеи в эксперименты и доводить их до результата
Linux, Docker, Git
Технический английский на высоком уровне.

Будет плюсом:

Off-policy RL, importance sampling, SAC, V-trace
DeepSpeed, FSDP, VERL, OpenRLHF, SampleFactory
vLLM или TGI
FP8 / INT8 quantization
Curriculum learning - постепенное усложнение задач / адаптивная выборка
Опыт работы с бенчмарками на задачи рассуждения
Публикации на сильных конференциях

Важно

Не обязательно совпадать со всем списком - глубина в одной из областей и способность быстро разбираться в новом для нас важнее формального покрытия.

Что мы предлагаем:

Задачу на переднем крае: асинхронный RL и дообучение LLM для задач рассуждения;
Доступ к GPU-кластеру и возможность быстро проверять гипотезы;
Сильную исследовательскую команду с опытом публикаций на ICLR, NeurIPS, AAAI, ACL и других ведущих международных конференциях;

Организационные детали:

Работа в ведущем техническом вузе страны, в городе Долгопрудный (рядом со станцией Новодачная МЦД-1 или 15 минут от метро Алтуфьево, Ховрино, Физтех);
Оформление в соответствии с ТК РФ;
Возможность бесплатного посещения бассейна и тренажерного зала, концертов, тренингов, и других интересных мероприятий в кампусе МФТИ;
Перед началом процесса собеседования просим вас заказать справку о наличии (отсутствии) судимости. Она понадобится на финальном этапе трудоустройства.
Такую справку можно заказать на Госуслугах в электронном виде.
Срок изготовления справки может занять до 30 дней, просим заранее позаботиться о её получении.

Институт ИИ МФТИ – ведущий институт по искусственному интеллекту в России. В состав Института входят сильнейшие ученые и ключевые лаборатории Физтеха по направлениям: оптимизация для ИИ, Робототехника, Генеративный ИИ, Компьютерное зрение и Математическое моделирование. Цель Института - создание прорывных научных исследований и прикладных разработок для ключевых отраслей экономики страны.

Немного о нас в цифрах:

1-е место среди технических вузов России в международных рейтинге THE и CWUR (2026);

1-е место в предметном рейтинге RAEX по направлению "Информационные технологии" (2025);

1-е место в рейтинге передовых инженерных школ (2025);

1-е место в рейтинге вузов России по качеству приёма (2025);

Лидер в рейтинге вузов по качеству подготовки специалистов в области искусственного интеллекта (2025).

Исследователь-разработчик в DL/RL (дообучение LLM, RLHF, асинхронный RL)

190 000 - 250 000 ₽

Похожие вакансии

Middle NLP Разработчик

Вакансия в подборках

Похожие вакансии