LLM Evaluation инженер (Системы оценки качества AI)

По договоренности

Москва

Авиамоторная
Площадь Ильича
Марксистская

Мы формируем в компании AI Platform Team — которая отвечает за всю инфраструктуру AI: от выбора моделей до их продуктовой эксплуатации.

Наша задача — дать продуктам объективную и воспроизводимую систему оценки LLM. Чтобы каждое решение — смена модели, обновление промпта, настройка RAG — принималось на основе метрик, а не интуиции.

Нам важно, чтобы вы имели практический опыт построения систем оценки качества LLM/ML-моделей. Необходимо строить бенчмарки, управлять датасетами, внедрять human-in-the-loop процессы, настраивать observability-стек (Langfuse) и встраивать eval-пайплайны в CI/CD.

Чтобы команды разработки видели чёткие цифры: точность, латентность, стоимость, регрессии.

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

Проектирование и развитие системы оценки качества LLM и AI-функций (чат, генерация, RAG, агенты) для продуктов Битрикс24.
Построение и поддержка бенчмарков: разработка сценариев, формирование и версионирование датасетов, подбор метрик для сравнения моделей и конфигураций.
Подготовка, разметка и управление датасетами для оффлайн-оценки, включая human-in-the-loop процессы.
Настройка автоматических прогонов бенчмарков в CI/CD, формирование и визуализация отчётов для команд разработки и продукта.
Развитие observability-стека для LLM (Langfuse и другие инструменты): трассировка запросов, метрики качества, дашборды, алерты.
Участие в улучшении и оптимизации процессов разработки AI-функций, внедрение data-driven подхода к принятию решений по моделям.
Участие в ревью проектов, командной работе, внутренних митапах и обмене знаниями.

ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:

Опыт работы с LLM и их API (OpenAI, Anthropic, GigaChat, локальные LLaMA/Qwen и др.), понимание их ограничений.
Конкретный опыт работы с Langfuse (настройка трейсинга, eval-ранов, дашбордов, алертов).
Навыки анализа логов и метрик, построения отчётов и визуализаций для технической и продуктовой аудитории.
Понимание принципов статистики и экспериментального дизайна (гипотезы, выборки, значимость, интерпретация результатов).

ТАКЖЕ ДЛЯ НАС ВАЖНО:

Знание языка программирования Python.
Практический опыт проектирования приложений и веб-сервисов либо внутренних инструментов для разработчиков/DS.
Понимание принципов работы баз данных и систем хранения данных (для логов, датасетов, результатов экспериментов).
Отличное знание и понимание жизненного цикла ПО, опыт работы с системами контроля версий и CI/CD.
Уверенное знание сетевых технологий на уровне, необходимом для понимания работы распределённых сервисов и API.
Базовое понимание веб-безопасности и приватности данных при работе с пользовательскими запросами и логами.
Уверенное знание ООП и современных парадигм проектирования (SOLID, Clean Architecture).
Готовность отстаивать своё мнение на основе данных и экспериментов и при этом оставаться открытым к аргументам команды.

БУДЕТ ПЛЮСОМ:

Опыт использования фреймворков для eval и оркестрации LLM (например, LangChain, LlamaIndex, LangGraph и т.п.).
Знание принципов модульного тестирования, умение писать тесты (PyTest, PHPUnit и др.).
Опыт работы в продуктовых командах, где решения по моделям принимались на основе количественных и качественных метрик.

ЧТО МЫ ПРЕДЛАГАЕМ:

Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;
Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;
Работа в компании, где принятие решений основано на данных и аналитике;
Конкурентоспособная заработная плата, оформление по ТКРФ;
Программы профессионального развития и обучения;
ДМС со стоматологией после трех месяцев работы;
Сервис психологической поддержки ЯСНО;
Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

⚡ Откликнуться на hh.ru

Адрес: Россия, Москва, бульвар Энтузиастов, 2

Показать на большой карте

Опубликована 22 дня назад

Сетевой инженер / Network Engineer

Мы активно развиваем инфраструктуру и сейчас ищем Сетевого инженера / Network Engineer, который поможет ...

Можно удаленно
Нестандартный график
Опыт от 5 лет

Арканит

Москва

4 дня назад

Дата инженер

НИИ «ВОСХОД» — мультисервисный партнер государства в области информационных технологий с 1972 года. Мы создаем инновационные ИТ-решения для органов власти, внедряем и развиваем новые форматы эффективного взаимодействия между государством и обществом....

Можно удаленно
Полный день
Опыт от 5 лет

НИИ Восход

Москва

4 дня назад

⚡ Откликнуться на hh.ru

Системный инженер (L4)

Чем предстоит заниматься: Участие в критичных инцидентах в роли ведущего технического эксперта (L4); Контроль и координация процесса устранения инцидента от обнаружения до полного восстановления сервиса; Глубокий технический разбор инцидентов и выраб...

Можно удаленно
Полный день
Опыт от 5 лет

Cloud.ru

Москва

2 дня назад

⚡ Откликнуться на hh.ru

Senior DevOps-инженер

от 300 000 ₽

Выше средней на 20%

Разница с обычным инженером — в том, что ты ещё и определяешь, куда команда движется. ... Ты остаёшься инженером, который думает и принимает решения — но рутину отдаёшь. ... Если считаешь, что «настоящий инженер всё делает сам» — нам не по пути.

Можно удаленно
Полный день
Опыт от 5 лет

Kinescope

Москва

4 дня назад

⚡ Откликнуться на hh.ru

Ведущий инженер конструктор

200 000 - 250 000 ₽

... полный цикл: Расчёты-Моделирование-Чертежи) Проверка решений и координация небольшой группы младших инженеров ...

Можно удаленно
Полный день
Опыт от 5 лет

Digital Twin Center

Москва

3 дня назад

⚡ Откликнуться на hh.ru

DevOps инженер (Platform Services)

Наша распределенная команда Dev насчитывает более 800 специалистов и разрабатывает собственные продукты с 2012 года – рекламные платформы, игровые сервисы и платформы, мобильные и развлекательные приложения, финтех-продукты и решения. У нас проектно-...

Можно удаленно
Полный день
Опыт от 5 лет

DatsTeam

Москва

3 дня назад

⚡ Откликнуться на hh.ru

LLM Evaluation инженер (Системы оценки качества AI)

По договоренности

Похожие вакансии

Сетевой инженер / Network Engineer

Дата инженер

Системный инженер (L4)

Senior DevOps-инженер

Ведущий инженер конструктор

DevOps инженер (Platform Services)

Вакансия в подборках

Похожие вакансии