LLM Evaluation инженер (Системы оценки качества AI)

По договоренности

  • Авиамоторная
  • Площадь Ильича
  • Марксистская

Мы формируем в компании AI Platform Team — которая отвечает за всю инфраструктуру AI: от выбора моделей до их продуктовой эксплуатации.

Наша задача — дать продуктам объективную и воспроизводимую систему оценки LLM. Чтобы каждое решение — смена модели, обновление промпта, настройка RAG — принималось на основе метрик, а не интуиции.

Нам важно, чтобы вы имели практический опыт построения систем оценки качества LLM/ML-моделей. Необходимо строить бенчмарки, управлять датасетами, внедрять human-in-the-loop процессы, настраивать observability-стек (Langfuse) и встраивать eval-пайплайны в CI/CD.

Чтобы команды разработки видели чёткие цифры: точность, латентность, стоимость, регрессии.

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

  • Проектирование и развитие системы оценки качества LLM и AI-функций (чат, генерация, RAG, агенты) для продуктов Битрикс24.

  • Построение и поддержка бенчмарков: разработка сценариев, формирование и версионирование датасетов, подбор метрик для сравнения моделей и конфигураций.

  • Подготовка, разметка и управление датасетами для оффлайн-оценки, включая human-in-the-loop процессы.
  • Настройка автоматических прогонов бенчмарков в CI/CD, формирование и визуализация отчётов для команд разработки и продукта.
  • Развитие observability-стека для LLM (Langfuse и другие инструменты): трассировка запросов, метрики качества, дашборды, алерты.
  • Участие в улучшении и оптимизации процессов разработки AI-функций, внедрение data-driven подхода к принятию решений по моделям.
  • Участие в ревью проектов, командной работе, внутренних митапах и обмене знаниями.

ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:

  • Опыт работы с LLM и их API (OpenAI, Anthropic, GigaChat, локальные LLaMA/Qwen и др.), понимание их ограничений.
  • Конкретный опыт работы с Langfuse (настройка трейсинга, eval-ранов, дашбордов, алертов).
  • Навыки анализа логов и метрик, построения отчётов и визуализаций для технической и продуктовой аудитории.
  • Понимание принципов статистики и экспериментального дизайна (гипотезы, выборки, значимость, интерпретация результатов).

ТАКЖЕ ДЛЯ НАС ВАЖНО:

  • Знание языка программирования Python.
  • Практический опыт проектирования приложений и веб-сервисов либо внутренних инструментов для разработчиков/DS.
  • Понимание принципов работы баз данных и систем хранения данных (для логов, датасетов, результатов экспериментов).
  • Отличное знание и понимание жизненного цикла ПО, опыт работы с системами контроля версий и CI/CD.
  • Уверенное знание сетевых технологий на уровне, необходимом для понимания работы распределённых сервисов и API.
  • Базовое понимание веб-безопасности и приватности данных при работе с пользовательскими запросами и логами.
  • Уверенное знание ООП и современных парадигм проектирования (SOLID, Clean Architecture).
  • Готовность отстаивать своё мнение на основе данных и экспериментов и при этом оставаться открытым к аргументам команды.

БУДЕТ ПЛЮСОМ:

  • Опыт использования фреймворков для eval и оркестрации LLM (например, LangChain, LlamaIndex, LangGraph и т.п.).
  • Знание принципов модульного тестирования, умение писать тесты (PyTest, PHPUnit и др.).
  • Опыт работы в продуктовых командах, где решения по моделям принимались на основе количественных и качественных метрик.

ЧТО МЫ ПРЕДЛАГАЕМ:

  • Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;
  • Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;
  • Работа в компании, где принятие решений основано на данных и аналитике;
  • Конкурентоспособная заработная плата, оформление по ТКРФ;
  • Программы профессионального развития и обучения;
  • ДМС со стоматологией после трех месяцев работы;
  • Сервис психологической поддержки ЯСНО;
  • Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

Адрес: Россия, Москва, бульвар Энтузиастов, 2
Показать на большой карте

Поделиться:

Опубликована 2 дня назад

Похожие вакансии

... . • Взаимодействие с инженерами и проектировщиками для уточнения технических деталей. • Опыт прохождения ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании ExpertsmetExpertsmet
  • Москва
8 часов назад
от 150 000 ₽
... высшим (техническим) образованием, имеющий практический стаж не менее 5-ти лет по специальности Горный инженер ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании ПИРОВЗРЫВПИРОВЗРЫВ
  • Москва
8 часов назад
О компании: Мы создаем единую систему цифровой маркировки и прослеживания товаров в России и странах ЕАЭС. Наша система позволяет снизить уровень контрафакта и гарантировать подлинность товаров, производимых в стране или ввозимых в нее. Честный Знак ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании Честный знак.рфЧестный знак.рф
  • Москва
2 дня назад
Открыта вакансия Devops Engineer (1С) в компании ПЕРСПЕКТИВА – российская торговая FMCG (товары повседневного спроса) компания в категории безалкогольные и слабоалкогольные напитки, специализирующаяся на оптово-розничных продажах. Чем предстоит заним...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании ПерспективаПерспектива
  • Москва
2 дня назад
Обязанности: Разработка проектной документации на стадиях "П" и "Р" раздел КЖ под руководством главного специалиста (жилые многоэтажные дома, детские сады, школы); Выполнение чертежей, пояснительных записок, расчетов. Требования: Опыт работы в проект...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании СпектрСпектр
  • Москва
8 часов назад
от 180 000 ₽
Обязанности: Разработка проектной документации на стадии П и Р, марки КЖ, КМ, КР для жилых и общественных зданий; Выполнение расчётов конструкций; Согласование проектных решений со смежными разделами; Участие в производственных совещаниях и в совещан...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании АрхиградАрхиград
  • Москва
2 дня назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.