MLOps (Инженер LLM-инфраструктуры)

По договоренности

Москва

Авиамоторная
Площадь Ильича
Марксистская

Мы формируем в компании AI Platform Team — внутреннюю платформенную команду, которая отвечает за всю инфраструктуру AI: от исследований моделей до их продакшн-запуска.

Наша задача — дать продуктам надёжный и эффективный доступ к LLM. Строить отказоустойчивые системы, которые держат нагрузку.

Мы ищем инженера, который будет проектировать, разворачивать и глубоко оптимизировать платформу для инференса больших языковых моделей. Работать с vLLM/Triton, GPU-кластерами, observability-стеком — чтобы модели работали быстро, стабильно и экономично.

Если вы строили высоконагруженные ML-системы и хотите решать сложные инфраструктурные задачи в области LLM — давайте обсудим.

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

Проектирование, развитие и эксплуатация инфраструктуры для инференса LLM, включая BitrixGPT, локальные и облачные модели:

проектирование и внедрение стеков для эффективного обслуживания LLM, таких как vLLM, Nvidia Triton Inference Server и их аналогов,
оптимизация схем шардирования моделей, батчинга и стриминга токенов.

Настройка, эксплуатация и оптимизация GPU-кластеров для инференса:

управление ресурсами, планирование загрузки (capacity planning), снижение стоимости владения.

Профилирование и отладка сервисов инференса:

поиск и устранение узких мест, влияющих на задержки (latency) и пропускную способность (throughput).

Настройка наблюдаемости (observability) AI-стека:

сбор метрик, логирование, трассировка и алертинг (Prometheus, Grafana и других инструментов,
разработка дашбордов для мониторинга доступности, задержек, ошибок и стоимости инференса.

Участие в разработке и улучшении платформенных процессов:

совместная работа с командами разработки и data science,
ревью архитектуры и сервисов, обмен экспертизой на внутренних митапах.

ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:

Продовый опыт эксплуатации ML-/LLM-сервисов или высоконагруженных backend-систем.
Практический опыт работы с контейнеризацией и оркестрацией (Docker).
Опыт построения CI/CD-пайплайнов (GitLab CI, GitHub Actions или аналоги).
Уверенное владение Python для разработки сервисов, утилит, оркестрации и автоматизации.
Понимание устройства современных LLM: архитектура трансформеров, токенизация, контекстное окно, влияние параметров (batch size, KV-cache) на latency и throughput.
Опыт настройки мониторинга и логирования в production (Prometheus, Grafana, ELK-стек, Sentry или аналоги).
Навыки анализа и оптимизации производительности сервисов: профилирование, поиск и устранение узких мест.
Готовность отстаивать своё мнение и предлагать улучшения для достижения наилучшего результата.

ТАКЖЕ ДЛЯ НАС ВАЖНО:

Практический опыт работы с vLLM.
Опыт работы с GPU-инфраструктурой: CUDA, мониторинг и тюнинг GPU-нагрузки.
Опыт построения LLM-систем (chat, RAG, агенты) и понимание их паттернов нагрузки.
Знание принципов безопасной разработки и эксплуатации веб-сервисов.
Знание SQL и опыт работы с реляционными/нереляционными СУБД.
Опыт написания автоматических тестов (PyTest и др.) и тестирования производительности.
Глубокое знание Python.

ЧТО МЫ ПРЕДЛАГАЕМ:

Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;
Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;
Работа в компании, где принятие решений основано на данных и аналитике;
Конкурентоспособная заработная плата, оформление по ТКРФ;
Программы профессионального развития и обучения;
ДМС со стоматологией после трех месяцев работы;
Сервис психологической поддержки ЯСНО;
Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

⚡ Откликнуться на hh.ru

Адрес: Россия, Москва, бульвар Энтузиастов, 2

Показать на большой карте

Опубликована месяц назад

Инженер

100 000 - 150 000 ₽

Вдохновляющая возможность для инженера ПНР: воплотите идеи в жизнь! ... документации и отчетности Участие в оптимизации процессов и внедрении инноваций Наши ожидания: Опыт работы инженером ...

Можно удаленно
Полный день
Опыт от 5 лет

Неробова Юлия Евгеньевна

Москва

4 дня назад

⚡ Откликнуться на hh.ru

Senior DevOps-инженер

Сейчас мы находимся в поиске DevOps-инженера в команду PCEF.

Можно удаленно
Полный день
Опыт от 5 лет

РДП Энтерпрайз

Москва

3 дня назад

⚡ Откликнуться на hh.ru

Инженер-сметчик

Обязанности: подготовка конъюнктурного анализа по ОВиК, ВК, СС, ТХ по объектам общественного назначения Требования: релевантный опыт Условия: удаленка, работа под проект

Можно удаленно
Подработка
Опыт от 5 лет

ПИР Эксперт

Москва

7 дней назад

⚡ Откликнуться на hh.ru

Системный инженер L4

Обязанности: Участие в критичных инцидентах в роли ведущего технического эксперта (L4); Контроль и координация процесса устранения инцидента от обнаружения до полного восстановления сервиса; Глубокий технический разбор инцидентов и выработка корректи...

Можно удаленно
Полный день
Опыт от 5 лет

Cloud.ru

Москва

6 дней назад

⚡ Откликнуться на hh.ru

Инженер L3 VMware

Обязанности: Решение инфраструктурных инцидентов, решение клиентских инцидентов и ЗНО (на уровне L3 поддержки), взаимодействие с вендором; Повышение стабильности инфраструктуры (развитие мониторинга, работа с инцидентами, предложения по изменению арх...

Можно удаленно
Полный день
Опыт от 5 лет

Cloud.ru

Москва

6 дней назад

⚡ Откликнуться на hh.ru

Senior ML-инженер

270 000 - 310 000 ₽

Выше средней на 26%

Будет плюсом: · Имеешь опыт работы DevOps-инженером от 3 лет. · Опыт работы с облачными платформами ( ...

Можно удаленно
Частичная занятость
Опыт от 5 лет

Live Typing

Москва

7 дней назад

⚡ Откликнуться на hh.ru

MLOps (Инженер LLM-инфраструктуры)

По договоренности

Похожие вакансии

Инженер

Senior DevOps-инженер

Инженер-сметчик

Системный инженер L4

Инженер L3 VMware

Senior ML-инженер

Вакансия в подборках

Похожие вакансии