- Работа в Москве
- IT, интернет, связь, телеком
- Разработчик
- Разработчик инфраструктуры LLM
Разработчик инфраструктуры LLM
По договоренности
Инференс LLM в масштабе — это сложная инфраструктурная задача: GPU работают на пределе, возникают сетевые задержки, возможны сбои оборудования. Мы создаём решения, чтобы эти события минимально влияли на доступность и latency нашего сервиса инференса.
Какие задачи вас ждут
- Оптимизация инференсных движков
Вам предстоит повышать эффективность и снижать latency при выполнении LLM-инференса на GPU.
- Развитие инструментов диагностики
Вы будете создавать и улучшать инструменты для быстрого выявления и устранения инфраструктурных проблем, которые влияют на стабильность и скорость инференса.
- Исследование и внедрение
Вам предстоит работать с методами оптимизации инференса (квантованием, прунингом) и современными подходами к параллелизации.
Мы ждем, что вы
- Владеете C++ и Python: имеете уверенные навыки низкоуровневого программирования и оптимизации
- Работали с GPU (NVIDIA) и CUDA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы под CUDA
- Глубоко понимаете архитектуру Transformer: знакомы с внутренними механизмами (attention, FFN, нормализацией) и их реализациями
- Знаете подходы к параллелизации: понимаете Data Parallel, Tensor Parallel, Pipeline Parallel (желательно ещё Expert Parallel) для распределённого инференса или обучения
- Интересуетесь LLM и MLOps: понимаете задачи и вызовы, связанные с эксплуатацией больших моделей в продакшне
- Умеете эффективно работать в команде и делиться знаниями
Будет плюсом, если вы
- Работали с современными решениями для оптимизации инференса: vLLM, TensorRT-LLM (TRT-LLM) или sglang
Поделиться:
Опубликована 20 дней назад