MlOps inference engineer

По договоренности

  • Динамо
  • Белорусская
  • Маяковская

Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу.

Обязанности:

  • Разработка и оптимизация инфраструктуры инференса LLM‑моделей.

  • Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов

  • Помощь в capacity-планировании командам-заказчикам

  • Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT‑LLM).

  • Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU‑нагрузок

Ключевые знания и навыки:

  • Глубокая экспертиза в архитектуре и инференсе больших языковых моделей.
  • Понимание устройства моделей (трансформеры, BERT, LLM и т.д.)
  • Опыт построения высокопроизводительных LLM‑сервисов с использованием vLLM, TensorRT‑LLM/FasterTransformer/Triton Inference Server/etc.
  • Знание методов оптимизации и ускорения LLM‑инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding.
  • Понимание нюансов распределенных систем и GPU‑коммуникации (NCCL, MPI, RDMA, InfiniBand).
  • Опыт в управлении кластером для LLM‑нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе.
  • Уверенное владение Python
  • Знание инструментов профилирования GPU (nvidia‑smi, Nsight, TensorRT Profiler).
  • Опыт участия в архитектурном дизайне крупных AI‑платформ
  • Опыт управления командой инженеров.
  • Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей.

Будет преимуществом:

  • Опыт построения LLM‑сервисов с потоковой генерацией токенов (streaming inference).
  • Знание особенностей служебных компонентов LLM‑пайплайна: токенизаторы, KV‑кэш, контекстное окно.
  • Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности.
  • Участие в проектах по оптимизации инфраструктуры для LLM‑инференса на уровне платформы (multi‑tenant LLM serving, dynamic batching).
  • Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG‑решений и не только.

Что предлагаем мы:

  • Возможность выбора формата работы: гибрид, удаленно или из офиса
  • Гибкий график
  • Корпоративный ДМС со стоматологией c первого месяца работы
  • Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов
  • Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер
  • Кофе в кофемашинах, чай, печенье, фрукты на кухне
  • Электронная корпоративная библиотека
  • Молодой, профессиональный и дружный коллектив
  • Возможность профессионального развития, обучения за счет компании, участия в конференциях
  • Достойный уровень заработной платы
  • Совместную постановку целей и индивидуальный план развития


Адрес: Россия, Москва, 2-я Брестская улица, 48
Показать на большой карте

Поделиться:

Опубликована 21 день назад

Похожие вакансии

Мы ожидаем: 4+ лет опыта работы с данными, в роли Data Engineer или аналогичной. ... результат; Официальное оформление по ТК УЗ; Три дополнительных оплачиваемых дня к отпуску; Мы резидент IT-парка ... , наши специалисты могут получить IT-визу, которая приравнивается к ВНЖ; Развитие личного бренда на конференциях ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании «UZUM TECHNOLOGIES»«UZUM TECHNOLOGIES»
  • Москва
день назад
Aegis IT — бутик-компания в сфере IT-аутстаффинга, работающая со специалистами с уровня senior и lead ... Сейчас у нас в работе есть несколько проектов на позицию Senior AQA Java Engineer Чем предстоит заниматься ...
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании Казарьянц Артур ЭдуардовичКазарьянц Артур Эдуардович
  • Москва
7 часов назад
Приглашаем в команду QA Engineer Automation Expert Проект финансовый The Mission As our first QA hire ... If it can be done twice, it must be automated!
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании EGAREGAR
  • Москва
7 часов назад
Приглашаем Tech Lead ML Engineer для работы на IT-проектах наших клиентов (в формате аутстафф). ... заключение договора ГПХ, сдельная основа (аутстафф); своевременные выплаты; интересные и уникальные IT-проекты ...
  • Можно удаленно
  • Подработка
  • Опыт от 5 лет
Логотип компании RedLabRedLab
  • Москва
7 часов назад
Вместе с масштабным развитием IT-направления мы формируем культуру Trust and Safety, гарантируя непрерывную ... Нам нужен Data Engineer, которому интересно работать с людьми и данными одновременно.
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании RWB (Wildberries & Russ)RWB (Wildberries & Russ)
  • Москва
7 дней назад
Ищем Lead Data Engineer, которому интересно не просто поддерживать существующие решения, а строить Data ... Официальное трудоустройство по ТК РФ в аккредитованную IT-компанию.
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
Логотип компании ФинфреймФинфрейм
  • Москва
7 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.