Эксперт Reinforcement learning
По договоренности
Мы - Центр педагогического дизайна и онлайн обучения Института дистанционного образования ТГУ. Создаем онлайн-магистратуры, являемся оператором проекта “Цифровые кафедры” в ТГУ (IT-программы для обучающихся любых специальностей).
Сейчас в рамках одной из наших флагманских онлайн-магистратур “Науки о данных” мы находимся в поиске эксперта-разработчика дисциплины “Reinforcement learning (обучение с подкреплением)”.
Основная задача курса — научить использованию подхода к обучению с подкреплением для различных алгоритмов машинного обучения: создание reward-функции для больших языковых моделей, обучение алгоритмов для беспилотных автомобилей, моделирование производственных процессов (создание агентно-ориентированных систем на конкретном бизнес-процессе для его оптимизации).
Возможные темы дисциплины:
1. Отличие задачи Rl от классических задач МО.
Примеры проектов:
- Предсказание поведения конкурентов на рынке;
- Обучение модулей Rl в LLM за счет инструктивного датасета;
- Задача про применение policy-based и value-based подходов в аукционах;
- Моделирование производственных процессов (на конкретном кейсе от предприятия).
Чем предстоит заниматься:
- Разработка педагогического сценария дисциплины в рамках существующей магистратуры, в соответствии с заданными компетенциями, задачами, объемом (в согласовании с педагогическим дизайнером), с отчуждением авторских прав в пользу ТГУ;
- Разработка лонгридов, сценариев видеоконтента, презентаций и аннотаций к лекциям, заданий; подбор дополнительных учебных материалов и списка литературы;
- Составление рабочей программы дисциплины и оценочных материалов;
- Запись видеоконтента в студии ИДО или скринкаста при удаленной работе;
- Проведение вебинаров (синхронных занятий) в удаленном формате. Вебинары проходят в вечернее время в будние дни и по субботам - есть возможность выбрать подходящее время;
- Поддержание коммуникации с обучающимся в рабочем пространстве.
Требования к кандидату:
- Глубокое понимание теоретических основ RL: математический аппарат (марковские процессы принятия решений, теория игр), понимание различий value-based, policy-based и model-based подходов.
- Практический опыт реализации и отладки алгоритмов RL: уверенное владение ключевыми алгоритмами (Q-Learning, SARSA, DQN и его модификации, Policy Gradients, PPO, A3C, SAC) не только на уровне библиотек, но и на уровне их устройства.
- Опыт работы с ключевыми фреймворками и средами: OpenAI Gym/Gymnasium, Stable-Baselines3, Ray RLlib; опыт создания собственных сред (environment) для симуляции задач.
- Навыки программирования: уверенное владение Python и основными библиотеками для ML (NumPy, PyTorch или TensorFlow).
- Понимание современных трендов и смежных областей: знакомство с Deep RL, Multi-Agent RL, Inverse RL, а главное — RLHF (Reinforcement Learning from Human Feedback) и его применение для тонкой настройки LLM.
- Опыт решения прикладных задач: портфолио проектов, где RL был ключевым инструментом (оптимизация, управление, игровые агенты, рекомендательные системы).
- Умение выстраивать контакт в онлайн среде;
- Умение работать с разновозрастной аудиторией;
- Приветствуется опыт работы в онлайн-образовании (ДПО, онлайн-курсы).
Что мы предлагаем:
- Договор о создании произведения (онлайн-курса) с отчуждением авторских прав;
- Удаленный формат работы;
- Заработная плата обсуждается индивидуально.
Почему стоит откликнуться:
Томский государственный университет – это бренд с более чем вековой историей, ведущий вуз с высокими стандартами качества. У нас Вы найдете поддержку и возможности для профессионального роста, которые помогут раскрыть Ваш потенциал.
Работая с нами, Вы будете частью команды, которая формирует будущее образования в России!
Опубликована 5 часов назад