Руководитель аналитики метрик качества GigaChat (LLM Evaluation)
По договоренности
Мы — команда GigaChat ML. Делаем полный цикл обучения модели, от претрейна до алайнмента. Нам нужен руководитель, который будет фултайм владеть системой метрик качества GigaChat:
- Измерять качество на бенчмарках и реальных логах.
- Находить слабые места и причины деградаций.
- Развивать метрики и процессы, ускорять внедрение новых бенчмарков и системы замера.
Эта роль про фунадментальное качество модели и измерения (не про продуктовые метрики DAU/Retention и не про сбор данных как основной фокус).
Обязанности
Владение системой качества и метрик (end-to-end ownership)
- Определять и поддерживать “quality scorecard” для GigaChat: что считаем качеством, какие метрики ключевые, какие — нет.
- Держать фокус на эффективности системы и снижать стоимость измерений.
Бенчмарки и регрессионное тестирование
- Постоянно актуализировать пакет бенчмарков под ключевые сценарии, чтобы успевать за быстро развивающейся сферой LLM.
- Внедрить регулярное сравнительное тестирование версий модели и конкурентов по единой.
Аналитика логов и диагностика слабых мест
- Анализировать логи и пользовательский фидбэк с позиции качества: кластеризация проблем, тематические срезы, частотность, тяжесть.
- Связывать проблемы в логах с бенчмарками: проблемы должны быть измеримы.
Разработка и внедрение метрик качества
- Разрабатывать новые метрики/прокси метрики (автоматические и полуавтоматические), калибровать их против эталонных оценок.
- Продумывать, где нужна человеческая оценка, где достаточно автоматики, как снижать стоимость измерений без потери достоверности.
- Внедрять метрики в процессы: CI/релизные проверки, мониторинг качества, алерты.
Эксперименты и принятие решений
- Проектировать и анализировать A/B-эксперименты качества (в онлайне и/или в контролируемых тестах), делать выводы: “что улучшилось/ухудшилось”, “почему”, “что делать дальше”, “можно ли катить в прод”.
Требования
- Сильный Python (pandas, NumPy), уверенная аналитика данных, умение быстро превращать «сырые логи» в выводы.
- Хорошее понимание оценки качества LLM: какие типы метрик бывают, где они ломаются, как валидировать метрику, как избегать “gaming”.
- Понимание статистики и экспериментов: доверительные интервалы, тесты, множественные сравнения, дизайн A/B, интерпретация результатов.
- Практический опыт работы с LLM (Open Source и/или proprietary): понимание специфики инструкционного поведения, галлюцинаций, safety ограничений.
- Навыки продуктового и инженерного мышления: формулировать критерии качества так, чтобы они становились механизмом управления.
Будет плюсом
- Опыт построения evaluation фреймворков и “evaluation harness” (любые внутренние/внешние тулзы), интеграция оценок в CI/CD.
- Опыт с LLM based evaluation (LLM judge) и методами калибровки/контроля смещения судьи.
- Знание систем аналитики и хранилищ (SQL, ClickHouse/BigQuery/Spark/S3), мониторинг/дашборды (Grafana/Superset/Looker и аналоги).
Условия
- Удалённо
- Возможность оформления в аккредитованную IT-компанию.
- Годовая премия по итогам работы до 6 окладов.
- Регулярный пересмотр зарплат.
- Корпоративный спортзал и зоны отдыха.
- Более 400 программ СберУниверситета для роста.
- Программа адаптации и помощь руководителя на старте.
- Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
- Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
- Ипотека для сотрудников по дисконтной программе.
- СберПрайм+ и скидки у партнёров.
- Бонус за рекомендации в команду.
Опубликована 5 дней назад
Похожие вакансии
160 000 - 230 000 ₽
Рыночная зарплата
Вы будете развиваться вместе с нами: от менеджера проектов до руководителя направления. 2.
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
19 часов назад
от 200 000 ₽
Рыночная зарплата
Чем предстоит заниматься: Разработка и внедрение контент-стратегий для нескольких направлений. Управление разносторонней командой (SMM, копирайтеры, дизайнеры, инфлюенс-маркетологи). Личное участие в производстве: подготовка креативных идей, монитори...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
Сегодня Билайн — компания изменений, чутко реагирующая на потребности рынка и людей. А ещё Билайн — это команда, объединённая общими ценностями и общей целью — быть лидером телеком и digital рынков, предоставляя нашим клиентам новейшие продукты и усл...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
3 дня назад
от 220 000 ₽
Выше средней на 10%
... партнерства, развития, честности и масштабирования Стремимся к постоянному росту и инновациям Мы ищем руководителя ...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
18 часов назад
150 000 - 300 000 ₽
Выше средней на 12%
Привет! Мы — DEMIAND. Создаём инновационную бытовую технику и формируем новый стандарт удобства дома. Развиваем международный бизнес, закупки и логистику, а также e‑commerce, чтобы наши продукты были доступны каждому. Мы строим команду профессионалов...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
19 часов назад
Открываем роль в команде, которая реально драйвит бизнес. Мы — команда CRM розницы Уралсиба. CRM в Уралсиб — одна из ключевых функций банка. В ряде продуктов 50–99% продаж идут через нас. Ищем амбициозного кандидата который усилит нашу команду Чем пр...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
Вакансия в подборках
Похожие вакансии
160 000 - 230 000 ₽
от 200 000 ₽
от 220 000 ₽