Руководитель аналитики метрик качества GigaChat (LLM Evaluation)

По договоренности

Москва

Мы — команда GigaChat ML. Делаем полный цикл обучения модели, от претрейна до алайнмента. Нам нужен руководитель, который будет фултайм владеть системой метрик качества GigaChat:

Измерять качество на бенчмарках и реальных логах.
Находить слабые места и причины деградаций.
Развивать метрики и процессы, ускорять внедрение новых бенчмарков и системы замера.

Эта роль про фунадментальное качество модели и измерения (не про продуктовые метрики DAU/Retention и не про сбор данных как основной фокус).

Обязанности

Владение системой качества и метрик (end-to-end ownership)

Определять и поддерживать “quality scorecard” для GigaChat: что считаем качеством, какие метрики ключевые, какие — нет.
Держать фокус на эффективности системы и снижать стоимость измерений.

Бенчмарки и регрессионное тестирование

Постоянно актуализировать пакет бенчмарков под ключевые сценарии, чтобы успевать за быстро развивающейся сферой LLM.
Внедрить регулярное сравнительное тестирование версий модели и конкурентов по единой.

Аналитика логов и диагностика слабых мест

Анализировать логи и пользовательский фидбэк с позиции качества: кластеризация проблем, тематические срезы, частотность, тяжесть.
Связывать проблемы в логах с бенчмарками: проблемы должны быть измеримы.

Разработка и внедрение метрик качества

Разрабатывать новые метрики/прокси метрики (автоматические и полуавтоматические), калибровать их против эталонных оценок.
Продумывать, где нужна человеческая оценка, где достаточно автоматики, как снижать стоимость измерений без потери достоверности.
Внедрять метрики в процессы: CI/релизные проверки, мониторинг качества, алерты.

Эксперименты и принятие решений

Проектировать и анализировать A/B-эксперименты качества (в онлайне и/или в контролируемых тестах), делать выводы: “что улучшилось/ухудшилось”, “почему”, “что делать дальше”, “можно ли катить в прод”.

Требования

Сильный Python (pandas, NumPy), уверенная аналитика данных, умение быстро превращать «сырые логи» в выводы.
Хорошее понимание оценки качества LLM: какие типы метрик бывают, где они ломаются, как валидировать метрику, как избегать “gaming”.
Понимание статистики и экспериментов: доверительные интервалы, тесты, множественные сравнения, дизайн A/B, интерпретация результатов.
Практический опыт работы с LLM (Open Source и/или proprietary): понимание специфики инструкционного поведения, галлюцинаций, safety ограничений.
Навыки продуктового и инженерного мышления: формулировать критерии качества так, чтобы они становились механизмом управления.

Будет плюсом

Опыт построения evaluation фреймворков и “evaluation harness” (любые внутренние/внешние тулзы), интеграция оценок в CI/CD.
Опыт с LLM based evaluation (LLM judge) и методами калибровки/контроля смещения судьи.
Знание систем аналитики и хранилищ (SQL, ClickHouse/BigQuery/Spark/S3), мониторинг/дашборды (Grafana/Superset/Looker и аналоги).

Условия

Удалённо
Возможность оформления в аккредитованную IT-компанию.
Годовая премия по итогам работы до 6 окладов.
Регулярный пересмотр зарплат.
Корпоративный спортзал и зоны отдыха.
Более 400 программ СберУниверситета для роста.
Программа адаптации и помощь руководителя на старте.
Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
Ипотека для сотрудников по дисконтной программе.
СберПрайм+ и скидки у партнёров.
Бонус за рекомендации в команду.

⚡ Откликнуться на hh.ru

Опубликована месяц назад

Руководитель проектов

Мы собрали сильную команду экспертов на Битрикс и сейчас находимся в поиске Руководителя проектов.

Можно удаленно
Полный день
Опыт от 3 лет

РДН Групп

Москва

19 часов назад

⚡ Откликнуться на hh.ru

Руководитель проектов

160 000 - 230 000 ₽

Рыночная зарплата

Вы будете развиваться вместе с нами: от менеджера проектов до руководителя направления. 2.

Можно удаленно
Полный день
Опыт от 3 лет

Doczilla

Москва

2 дня назад

⚡ Откликнуться на hh.ru

Руководитель отдела ВЭД

150 000 - 250 000 ₽

Рыночная зарплата

Мы ищем опытного и стратегически мыслящего Руководителя отдела ВЭД, который возьмет на себя управление ...

Можно удаленно
Полный день
Опыт от 3 лет

Айлиев Яков Константинович

Москва

19 часов назад

⚡ Откликнуться на hh.ru

Руководитель продукта / Руководитель продуктового отдела (бренд женской одежды)

от 120 000 ₽

Кого мы ищем: Нам нужен сильный Руководитель продукта из fashion, который умеет сочетать креативное видение ... Опыт в женской одежде будет вашим преимуществом. · Опыт на позиции Руководителя продукта / Руководителя ...

Можно удаленно
Полный день
Опыт от 3 лет

TOP COLLECTION

Москва

19 часов назад

⚡ Откликнуться на hh.ru

Руководитель отдела продаж

80 000 - 250 000 ₽

Сеть онлайн магазинов парфюмерии люкс и премиум сегмента ищет будущего руководителя отдела продаж! ... Вход через позицию заместителя: первые 2–3 месяца работаешь в паре с действующим руководителем. ... предстоит заниматься: Ты будешь правой рукой действующего РОПа с плановым переходом в полноценного руководителя ...

Можно удаленно
Полный день
Опыт от 3 лет

Perfume Concierge

Москва

19 часов назад

⚡ Откликнуться на hh.ru

Руководитель Контент отдела

Мы - PERX, аккредитованная IT-компания, лидирующая на рынке разработок для автомобильного бизнеса. Мы разрабатываем программное обеспечение на основе web-технологий, которое включает в себя CMS, CRM, интранет-системы и распределенные информационные с...

Можно удаленно
Полный день
Опыт от 3 лет

PERX

Москва

2 дня назад

⚡ Откликнуться на hh.ru

Руководитель аналитики метрик качества GigaChat (LLM Evaluation)

По договоренности

Обязанности

Требования

Условия

Похожие вакансии

Руководитель проектов

Руководитель проектов

Руководитель отдела ВЭД

Руководитель продукта / Руководитель продуктового отдела (бренд женской одежды)

Руководитель отдела продаж

Руководитель Контент отдела

Вакансия в подборках

Похожие вакансии