- Работа в Ростове-на-Дону
- Удаленно
- Data scientist
- Ведущий Data Scientist (Reinforcement Learning & Research)
Ведущий Data Scientist (Reinforcement Learning & Research)
от 150 000 ₽
О нашем проекте
Мы работаем над системой управления доходами (RMS). Наши клиенты - российские авиакомпании.
Задача роли
Разработать и обучить RL-агента для управления доходами авиаперевозчика на уровне рынка: многопериодное принятие решений, ценовые уровни/классы бронирования, реакция спроса, конкуренция, неопределённость.
Зоны ответственности
- Постановка формальной задачи RL: определение пространств состояний/действий/вознаграждения, ограничений и KPI.
- Разработка и валидация симулятора рыночной среды на основе исторических данных (реакции спроса, сезонность, шоки).
- Исследование и внедрение алгоритмов RL/IL (value-based, policy-gradient, actor-critic, off-policy/offline RL).
- Экспериментальный дизайн: off-policy оценка, A/B в симуляторе, подготовка к онлайн-экспериментам.
- Инструменты качества: стабильность обучения, воспроизводимость, мониторинг метрик (reward, RM KPI, робастность к шокам).
- Взаимодействие с продуктом/инженерией: требования, передача моделей в прод, контроль деградаций.
Ожидаемые результаты (12 месяцев)
- Прототип агента, превосходящий базовые эвристики по целевой метрике (например, дополнительная выручка на рейс/ОД) в симуляторе.
- Набор сценариев стресс-тестирования (сезонные пики, отмены, конкуренты, сбои).
- Пайплайн для offline-to-online перехода (policy evaluation, guardrails).
Требования
- Сильная подготовка в RL/оптимизации/статистике (магистр/кандидат или сопоставимый опыт).
- Практика в PyTorch/JAX; опыт построения и отладки сложных обучающих циклов.
- Желателен опыт causal inference/контрафактической оценки.
- Плюс: временные ряды, эконометрика спроса, ценовые эксперименты.
- Умение формализовать задачу и защитимо сравнивать политики.
Технологии
Python, PyTorch/JAX, NumPy/Pandas, MLflow/Weights & Biases; приветствуются RLlib/Acme/Stable-Baselines.
Мы предлагаем:
- СТАБИЛЬНОСТЬ: оформление и оклад в соответствии с ТК РФ (гпх, фриланс - невозможны);
- БЕЗОПАСНОСТЬ: работа в аккредитованной IT-компании, отсрочка и т.д;
- УДАЛЕННУЮ РАБОТУ: график работы 5/2 по МСК в интервале 09-18.00 -/+2 часа (гибкое начало рабочего дня с учетом планирования общих коммуникаций);
- РАЗВИТИЕ: современный стек, наставничество в первый месяц работы, карьерный рост;
- процессы без бюрократии, политика «открытых дверей» руководства.
Опубликована 19 часов назад