Разработчик инфраструктуры LLM

По договоренности


Инференс LLM в масштабе — это сложная инфраструктурная задача: GPU работают на пределе, возникают сетевые задержки, возможны сбои оборудования. Мы создаём решения, чтобы эти события минимально влияли на доступность и latency нашего сервиса инференса.

Какие задачи вас ждут

  • Оптимизация инференсных движков

Вам предстоит повышать эффективность и снижать latency при выполнении LLM-инференса на GPU.

  • Развитие инструментов диагностики

Вы будете создавать и улучшать инструменты для быстрого выявления и устранения инфраструктурных проблем, которые влияют на стабильность и скорость инференса.

  • Исследование и внедрение

Вам предстоит работать с методами оптимизации инференса (квантованием, прунингом) и современными подходами к параллелизации.

Мы ждем, что вы

  • Владеете C++ и Python: имеете уверенные навыки низкоуровневого программирования и оптимизации
  • Работали с GPU (NVIDIA) и CUDA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы под CUDA
  • Глубоко понимаете архитектуру Transformer: знакомы с внутренними механизмами (attention, FFN, нормализацией) и их реализациями
  • Знаете подходы к параллелизации: понимаете Data Parallel, Tensor Parallel, Pipeline Parallel (желательно ещё Expert Parallel) для распределённого инференса или обучения
  • Интересуетесь LLM и MLOps: понимаете задачи и вызовы, связанные с эксплуатацией больших моделей в продакшне
  • Умеете эффективно работать в команде и делиться знаниями

Будет плюсом, если вы

  • Работали с современными решениями для оптимизации инференса: vLLM, TensorRT-LLM (TRT-LLM) или sglang

Поделиться:

Опубликована 20 дней назад

Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.