MLOps (Инженер LLM-инфраструктуры)

По договоренности

  • Авиамоторная
  • Площадь Ильича
  • Марксистская

Мы формируем в компании AI Platform Team — внутреннюю платформенную команду, которая отвечает за всю инфраструктуру AI: от исследований моделей до их продакшн-запуска.

Наша задача — дать продуктам надёжный и эффективный доступ к LLM. Строить отказоустойчивые системы, которые держат нагрузку.

Мы ищем инженера, который будет проектировать, разворачивать и глубоко оптимизировать платформу для инференса больших языковых моделей. Работать с vLLM/Triton, GPU-кластерами, observability-стеком — чтобы модели работали быстро, стабильно и экономично.

Если вы строили высоконагруженные ML-системы и хотите решать сложные инфраструктурные задачи в области LLM — давайте обсудим.

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

Проектирование, развитие и эксплуатация инфраструктуры для инференса LLM, включая BitrixGPT, локальные и облачные модели:

  • проектирование и внедрение стеков для эффективного обслуживания LLM, таких как vLLM, Nvidia Triton Inference Server и их аналогов,

  • оптимизация схем шардирования моделей, батчинга и стриминга токенов.

Настройка, эксплуатация и оптимизация GPU-кластеров для инференса:

  • управление ресурсами, планирование загрузки (capacity planning), снижение стоимости владения.

Профилирование и отладка сервисов инференса:

  • поиск и устранение узких мест, влияющих на задержки (latency) и пропускную способность (throughput).

Настройка наблюдаемости (observability) AI-стека:

  • сбор метрик, логирование, трассировка и алертинг (Prometheus, Grafana и других инструментов,
  • разработка дашбордов для мониторинга доступности, задержек, ошибок и стоимости инференса.

Участие в разработке и улучшении платформенных процессов:

  • совместная работа с командами разработки и data science,
  • ревью архитектуры и сервисов, обмен экспертизой на внутренних митапах.

ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:

  • Продовый опыт эксплуатации ML-/LLM-сервисов или высоконагруженных backend-систем.

  • Практический опыт работы с контейнеризацией и оркестрацией (Docker).

  • Опыт построения CI/CD-пайплайнов (GitLab CI, GitHub Actions или аналоги).

  • Уверенное владение Python для разработки сервисов, утилит, оркестрации и автоматизации.

  • Понимание устройства современных LLM: архитектура трансформеров, токенизация, контекстное окно, влияние параметров (batch size, KV-cache) на latency и throughput.

  • Опыт настройки мониторинга и логирования в production (Prometheus, Grafana, ELK-стек, Sentry или аналоги).

  • Навыки анализа и оптимизации производительности сервисов: профилирование, поиск и устранение узких мест.

  • Готовность отстаивать своё мнение и предлагать улучшения для достижения наилучшего результата.

ТАКЖЕ ДЛЯ НАС ВАЖНО:

  • Практический опыт работы с vLLM.

  • Опыт работы с GPU-инфраструктурой: CUDA, мониторинг и тюнинг GPU-нагрузки.

  • Опыт построения LLM-систем (chat, RAG, агенты) и понимание их паттернов нагрузки.

  • Знание принципов безопасной разработки и эксплуатации веб-сервисов.

  • Знание SQL и опыт работы с реляционными/нереляционными СУБД.

  • Опыт написания автоматических тестов (PyTest и др.) и тестирования производительности.

  • Глубокое знание Python.

ЧТО МЫ ПРЕДЛАГАЕМ:

  • Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;
  • Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;
  • Работа в компании, где принятие решений основано на данных и аналитике;
  • Конкурентоспособная заработная плата, оформление по ТКРФ;
  • Программы профессионального развития и обучения;
  • ДМС со стоматологией после трех месяцев работы;
  • Сервис психологической поддержки ЯСНО;
  • Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

Адрес: Россия, Москва, бульвар Энтузиастов, 2
Показать на большой карте

Поделиться:

Опубликована 3 дня назад

Похожие вакансии

до 650 000 ₽
Выше средней на 185%
Кого мы ищем Нам нужен инженер, который понимает рекламные алгоритмы Ключевое требование: ты понимаешь ... совмещение Можно и нужно спорить, если есть аргументы Продукт, за который не стыдно перед сильными инженерами ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании RivoxAIRivoxAI
  • Москва
3 дня назад
В нашу команду мы ищем devops-инженера Чем вы будете заниматься: эксплуатация и поддержка кластеров kubernetes ... автоматизация процессов сборки и деплоя ПО (построение процесса CI/CD в Jenkins); работа с командой системных инженеров ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании 3Logic Group3Logic Group
  • Москва
3 дня назад
Кто мы: Трайб Corporate&SME, мы разрабатываем и внедряем лучшие решения для Юридических лиц. Основные цели команды – улучшение клиентского опыта, оптимизация внутренних процессов и создание новых продуктов и услуг для Крупнейших и МСБ клиентов. Н...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании АО «ОТП Банк» (JSC «OTP Bank»)АО «ОТП Банк» (JSC «OTP Bank»)
  • Москва
3 дня назад
Мы активно расширяем наши команды разработки и ищем инженера тестирования в команду продукта PPEM.
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании Postgres ProfessionalPostgres Professional
  • Москва
2 дня назад
Мы ищем опытного SRE-инженера с амбициями и технической экспертизой, чтобы вместе с нами обеспечивать ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании Московская БиржаМосковская Биржа
  • Москва
2 дня назад
Наша распределенная команда Dev насчитывает более 800 специалистов и разрабатывает собственные продукты с 2012 года – рекламные платформы, игры, мобильные развлекательные приложения и финтех-продукты. У нас проектно-ориентированный подход, матричная ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании DatsTeamDatsTeam
  • Москва
2 дня назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.