LLM Platform Engineer (ML Engineer)

По договоренности

Magenta Technology

Самара

⚡ Откликнуться на hh.ru

Открыта вакансия LLM Platform Engineer (ML Engineer) на проект финтех.

Задачи:

Развертывание и оптимизация LLM моделей на multi-GPU установках с tensor/pipeline/data parallelism
Организация MLOps-процессов и системная оценка качества моделей
Обеспечение production latency <2s и uptime >95% для инфраструктуры inference
Профилирование и оптимизация использования VRAM (CUDA OOM prevention)
Мониторинг GPU-производительности

Мы ожидаем от тебя:

Python (asyncio, multiprocessing, typing) Advanced уровня
Bash/Shell scripting Advanced уровня для автоматизации развертывания
Практический опыт с vLLM, TensorRT-LLM, TGI для serving моделей
Опыт работы с квантизацией (AWQ, GPTQ, GGUF) для снижения требований к VRAM
Знание оптимизаций Flash Attention и Paged Attention
Навыки работы с PyTorch, JAX, ONNX для универсального развертывания
Опыт отладки GPU memory и понимание CUDA (Intermediate C++/CUDA)

Будет плюсом:

Опыт развертывания моделей на multi-GPU
Практика профилирования VRAM usage в production-средах
Опыт работы с моделями 480B+ параметров на кластерах GPU
Знание специфических GPU scheduling инструментов (Volcano, Kueue)

⚡ Откликнуться на hh.ru

Поделиться:

Опубликована 5 дней назад

Похожие вакансии

QA Automation Engineer (Python)

Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. Наш штат насчитывает 3400+ специалистов. Мы разрабатываем программное обеспечение и IT-решения в сферах Finance, Healthcare, eCommerce, IoT, Media, Big Data, ML и многом друг...

Можно удаленно
Полный день
Опыт от 3 лет

Aston

Самара

11 дней назад

⚡ Откликнуться на hh.ru

Вакансия в подборках

Похожие вакансии

QA Automation Engineer (Python)

Aston

Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.