MlOps inference engineer

По договоренности

  • Динамо
  • Белорусская
  • Маяковская

Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу.

Обязанности:

  • Разработка и оптимизация инфраструктуры инференса LLM‑моделей.

  • Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов

  • Помощь в capacity-планировании командам-заказчикам

  • Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT‑LLM).

  • Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU‑нагрузок

Ключевые знания и навыки:

  • Глубокая экспертиза в архитектуре и инференсе больших языковых моделей.
  • Понимание устройства моделей (трансформеры, BERT, LLM и т.д.)
  • Опыт построения высокопроизводительных LLM‑сервисов с использованием vLLM, TensorRT‑LLM/FasterTransformer/Triton Inference Server/etc.
  • Знание методов оптимизации и ускорения LLM‑инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding.
  • Понимание нюансов распределенных систем и GPU‑коммуникации (NCCL, MPI, RDMA, InfiniBand).
  • Опыт в управлении кластером для LLM‑нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе.
  • Уверенное владение Python
  • Знание инструментов профилирования GPU (nvidia‑smi, Nsight, TensorRT Profiler).
  • Опыт участия в архитектурном дизайне крупных AI‑платформ
  • Опыт управления командой инженеров.
  • Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей.

Будет преимуществом:

  • Опыт построения LLM‑сервисов с потоковой генерацией токенов (streaming inference).
  • Знание особенностей служебных компонентов LLM‑пайплайна: токенизаторы, KV‑кэш, контекстное окно.
  • Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности.
  • Участие в проектах по оптимизации инфраструктуры для LLM‑инференса на уровне платформы (multi‑tenant LLM serving, dynamic batching).
  • Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG‑решений и не только.

Что предлагаем мы:

  • Возможность выбора формата работы: гибрид, удаленно или из офиса
  • Гибкий график
  • Корпоративный ДМС со стоматологией c первого месяца работы
  • Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов
  • Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер
  • Кофе в кофемашинах, чай, печенье, фрукты на кухне
  • Электронная корпоративная библиотека
  • Молодой, профессиональный и дружный коллектив
  • Возможность профессионального развития, обучения за счет компании, участия в конференциях
  • Достойный уровень заработной платы
  • Совместную постановку целей и индивидуальный план развития


Адрес: Россия, Москва, 2-я Брестская улица, 48
Показать на большой карте

Поделиться:

Опубликована 4 часа назад

Похожие вакансии

React / TypeScript, Apache Kafka, Redis, PostgreSQL, Kubernetes Требования: Опыт работы на позиции QA Engineer ... Условия: Работу в аккредитованной IT-компании. Конкурентную заработную плату.
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании АО Мой спортАО Мой спорт
  • Москва
день назад
до 300 000 ₽
Выше средней на 11%
... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data scientist / CV Engineer. ... Опыт Backend в DS команде / ML engineer / ML архитектор; 4.
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
18 дней назад
Мы IT-FINANCE - команда крутых специалистов, которые разрабатывают программное обеспечение для лидогенерации ... Это позиция не ML Engineer — инфраструктурой, пайплайнами и продакшен-интеграцией занимаются отдельные ... др.; Компенсация внешнего обучения за счет компании; Работа в коллективе крутых специалистов в сфере IT ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании Ит-ФинансИт-Финанс
  • Москва
3 дня назад
Наличие сертификатов Dell о пройденном обучении и сданных экзаменах (Dell Proven Professional: Platform Engineer ... , Solution Engineer, Expert по указанным СХД); Знание оборудования NetApp, Huawei, Hitachi, Brocade, ... Условия: Официальное трудоустройство по ТК РФ в аккредитованную IT-компанию; Стабильный «белый» доход ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании РТК-ЦОДРТК-ЦОД
  • Москва
6 дней назад
400 000 - 450 000 ₽
Выше средней на 57%
Ищем опытного сотрудника на позицию Senior Data Engineer для работы в DWH команде заказчика (международная ... метаданными, каталогом данных и data lineage (Informatica’s CDGC) Обязательные требования: Опыт работы Data Engineer ... работа График работы: 5/2 с 09:00 до 18:00 или с 10:00 до 19:00 Трудоустройство по ТК РФ Аккредитованная IT-компания ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании ЭтВанс СервисезЭтВанс Сервисез
  • Москва
11 дней назад
от 200 000 ₽
Приглашаем DevOps-инженера для работы на IT-проектах наших клиентов (в формате аутстафф). ... Требования: Коммерческий опыт работы в роли DevOps / SRE / Infrastructure Engineer от 5 лет.
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании RedLabRedLab
  • Москва
день назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.