Разработчик инфраструктуры LLM

По договоренности

Инференс LLM в масштабе — это сложная инфраструктурная задача: GPU работают на пределе, возникают сетевые задержки, возможны сбои оборудования. Мы создаём решения, чтобы эти события минимально влияли на доступность и latency нашего сервиса инференса.

Какие задачи вас ждут

Оптимизация инференсных движков

Вам предстоит повышать эффективность и снижать latency при выполнении LLM-инференса на GPU.

Развитие инструментов диагностики

Вы будете создавать и улучшать инструменты для быстрого выявления и устранения инфраструктурных проблем, которые влияют на стабильность и скорость инференса.

Исследование и внедрение

Вам предстоит работать с методами оптимизации инференса (квантованием, прунингом) и современными подходами к параллелизации.

Мы ждем, что вы

Владеете C++ и Python: имеете уверенные навыки низкоуровневого программирования и оптимизации
Работали с GPU (NVIDIA) и CUDA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы под CUDA
Глубоко понимаете архитектуру Transformer: знакомы с внутренними механизмами (attention, FFN, нормализацией) и их реализациями
Знаете подходы к параллелизации: понимаете Data Parallel, Tensor Parallel, Pipeline Parallel (желательно ещё Expert Parallel) для распределённого инференса или обучения
Интересуетесь LLM и MLOps: понимаете задачи и вызовы, связанные с эксплуатацией больших моделей в продакшне
Умеете эффективно работать в команде и делиться знаниями

Будет плюсом, если вы

Работали с современными решениями для оптимизации инференса: vLLM, TensorRT-LLM (TRT-LLM) или sglang

Опубликована 20 дней назад