MLOps (Инженер LLM-инфраструктуры)
По договоренности
Мы формируем в компании AI Platform Team — внутреннюю платформенную команду, которая отвечает за всю инфраструктуру AI: от исследований моделей до их продакшн-запуска.
Наша задача — дать продуктам надёжный и эффективный доступ к LLM. Строить отказоустойчивые системы, которые держат нагрузку.
Мы ищем инженера, который будет проектировать, разворачивать и глубоко оптимизировать платформу для инференса больших языковых моделей. Работать с vLLM/Triton, GPU-кластерами, observability-стеком — чтобы модели работали быстро, стабильно и экономично.
Если вы строили высоконагруженные ML-системы и хотите решать сложные инфраструктурные задачи в области LLM — давайте обсудим.
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:
Проектирование, развитие и эксплуатация инфраструктуры для инференса LLM, включая BitrixGPT, локальные и облачные модели:
-
проектирование и внедрение стеков для эффективного обслуживания LLM, таких как vLLM, Nvidia Triton Inference Server и их аналогов,
-
оптимизация схем шардирования моделей, батчинга и стриминга токенов.
Настройка, эксплуатация и оптимизация GPU-кластеров для инференса:
- управление ресурсами, планирование загрузки (capacity planning), снижение стоимости владения.
Профилирование и отладка сервисов инференса:
- поиск и устранение узких мест, влияющих на задержки (latency) и пропускную способность (throughput).
Настройка наблюдаемости (observability) AI-стека:
- сбор метрик, логирование, трассировка и алертинг (Prometheus, Grafana и других инструментов,
- разработка дашбордов для мониторинга доступности, задержек, ошибок и стоимости инференса.
Участие в разработке и улучшении платформенных процессов:
- совместная работа с командами разработки и data science,
- ревью архитектуры и сервисов, обмен экспертизой на внутренних митапах.
ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:
-
Продовый опыт эксплуатации ML-/LLM-сервисов или высоконагруженных backend-систем.
-
Практический опыт работы с контейнеризацией и оркестрацией (Docker).
-
Опыт построения CI/CD-пайплайнов (GitLab CI, GitHub Actions или аналоги).
-
Уверенное владение Python для разработки сервисов, утилит, оркестрации и автоматизации.
-
Понимание устройства современных LLM: архитектура трансформеров, токенизация, контекстное окно, влияние параметров (batch size, KV-cache) на latency и throughput.
-
Опыт настройки мониторинга и логирования в production (Prometheus, Grafana, ELK-стек, Sentry или аналоги).
-
Навыки анализа и оптимизации производительности сервисов: профилирование, поиск и устранение узких мест.
-
Готовность отстаивать своё мнение и предлагать улучшения для достижения наилучшего результата.
ТАКЖЕ ДЛЯ НАС ВАЖНО:
-
Практический опыт работы с vLLM.
-
Опыт работы с GPU-инфраструктурой: CUDA, мониторинг и тюнинг GPU-нагрузки.
-
Опыт построения LLM-систем (chat, RAG, агенты) и понимание их паттернов нагрузки.
-
Знание принципов безопасной разработки и эксплуатации веб-сервисов.
-
Знание SQL и опыт работы с реляционными/нереляционными СУБД.
-
Опыт написания автоматических тестов (PyTest и др.) и тестирования производительности.
-
Глубокое знание Python.
ЧТО МЫ ПРЕДЛАГАЕМ:
- Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;
- Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;
- Работа в компании, где принятие решений основано на данных и аналитике;
- Конкурентоспособная заработная плата, оформление по ТКРФ;
- Программы профессионального развития и обучения;
- ДМС со стоматологией после трех месяцев работы;
- Сервис психологической поддержки ЯСНО;
- Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.
Опубликована 3 дня назад
Похожие вакансии
- Можно удаленно
- Полный день
- Опыт от 5 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 5 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 5 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 5 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 5 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 5 лет
- Москва