LLM Platform Engineer (ML Engineer)
По договоренности
Открыта вакансия LLM Platform Engineer (ML Engineer) на проект финтех.
Задачи:
- Развертывание и оптимизация LLM моделей на multi-GPU установках с tensor/pipeline/data parallelism
- Организация MLOps-процессов и системная оценка качества моделей
- Обеспечение production latency <2s и uptime >95% для инфраструктуры inference
- Профилирование и оптимизация использования VRAM (CUDA OOM prevention)
- Мониторинг GPU-производительности
Мы ожидаем от тебя:
- Python (asyncio, multiprocessing, typing) Advanced уровня
- Bash/Shell scripting Advanced уровня для автоматизации развертывания
- Практический опыт с vLLM, TensorRT-LLM, TGI для serving моделей
- Опыт работы с квантизацией (AWQ, GPTQ, GGUF) для снижения требований к VRAM
- Знание оптимизаций Flash Attention и Paged Attention
- Навыки работы с PyTorch, JAX, ONNX для универсального развертывания
- Опыт отладки GPU memory и понимание CUDA (Intermediate C++/CUDA)
Будет плюсом:
- Опыт развертывания моделей на multi-GPU
- Практика профилирования VRAM usage в production-средах
- Опыт работы с моделями 480B+ параметров на кластерах GPU
- Знание специфических GPU scheduling инструментов (Volcano, Kueue)
Опубликована 5 дней назад
Похожие вакансии
Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. Наш штат насчитывает 3400+ специалистов. Мы разрабатываем программное обеспечение и IT-решения в сферах Finance, Healthcare, eCommerce, IoT, Media, Big Data, ML и многом друг...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Самара
11 дней назад