ML Ops специалист

По договоренности

  • Марксистская
  • Третьяковская
  • Театральная

Мы команда ML Platform в отделе Trust & Safety. Отвечаем за инфраструктуру машинного обучения для модерации контента и карточек товаров Wildberries. Ежедневно через наши системы проходят десятки миллионов карточек, мы обрабатываем сотни миллионов решений по более чем 100 ML-моделям. Модели инферятся через Nvidia Triton Inference Server на GPU-кластерах.

Исторически ML Platform выросла из модерации, сейчас становимся самостоятельным юнитом и расширяемся на все направления T&S. В отделе работают десятки DS, единой платформенной инфраструктуры пока нет - каждая команда решает по-своему.

Ищем MLOps инженера на инфраструктурный слой платформы: управление GPU-кластером, ML-тулинг (ClearML, Kubeflow), среда обучения (JupyterHub), стандартизация пайплайнов. Строим с прицелом на масштабирование и мультитенантность.

Наш стек: ClearML, Kubeflow, Nvidia Triton Inference Server, pgvector, FAISS, JupyterHub, Python, Kubernetes, Helm, GitLab CI, Grafana, Prometheus​​​​​​​

Вам предстоит:

  • Отвечать за GPU-кластер целиком: от драйверов и настройки нод до утилизации, планирования ёмкости и стратегии разделения ресурсов между командами

  • Развёртывать и поддерживать ML-инструменты для DS-команд: ClearML, Kubeflow, JupyterHub

  • Строить пайплайны для ML-моделей

  • Оптимизировать inference-инфраструктуру: bin-packing, автоскейлинг, профилирование

  • Интегрировать Feature Store / Embedding Store (pgvector, FAISS)

  • Общаться с DS-командами, понимать их потребности и переводить в инфраструктурные решения

  • Масштабировать платформу на весь отдел Trust & Safety

Вы нам подходите, если у вас есть:
  • Глубокое понимание kubernetes (операторы, scheduling, resource management, GPU в K8s)

  • Практический опыт с NVIDIA GPU

  • Опыт развёртывания и поддержки MLOps-платформ для команд DS (например, ClearML, MLflow, Kubeflow, Airflow или аналогов)

  • Проактивность и желание строить платформу, а не просто поддерживать сервисы

  • Умение взаимодействовать с DS-командами и переводить потребности в технические решения

Будет плюсом:

  • Опыт с Triton Inference Server или аналогами

  • Понимание векторных БД и их оптимизации

  • Работа с Clearml, Kubeflow и Airflow

  • Опыт разделения и виртуализации GPU в Kubernetes для multi-tenant окружений (MIG, HAMi или аналоги)


Адрес: Россия, Москва, улица Большая Ордынка, 40с4
Показать на большой карте

Поделиться:

Опубликована день назад

Похожие вакансии

Нужны деньги до новой зарплаты? Кредитка Platinum от Т-Банка — до 1 000 000 ₽, 55 дней без %. Доставим сегодня бесплатно.
Получить карту
180 000 - 250 000 ₽
Выше средней на 59%
XPN Network — мы создаем и продвигаем мобильные приложения. Мы небольшие, быстрые и без лишней бюрократии. Ищем надежного коллегу в финансовую команду, который любит порядок в цифрах так же, как мы. Важное уточнение сразу: Мы ищем человека, который у...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании HR-speed HR-speed
  • Москва
14 часов назад
40 000 - 80 000 ₽
Ищем SEO-специалиста, который любит технологии и хочет использовать ИИ Мы ищем SEO-специалиста на проектную ...
  • Можно удаленно
  • Подработка
  • Опыт от 3 лет
Логотип компании Пцарев Вячеслав ПетровичПцарев Вячеслав Петрович
  • Москва
день назад
Компания «Ай-Теко» - ведущий российский системный интегратор и поставщик информационных технологий для корпоративных заказчиков. Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП-10 крупнейших IT-к...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
день назад
... для контроля нормативных требований по каждому генплану; выдача заданий и курирование работы ведущего специалиста ... бюро комплексного проектирования и с подрядными проектными организациями, в т.ч: совместная работа со специалистами ... (поиск оптимальной расстановки инженерных сооружений и коридоров сетей и т.д); совместная работа со специалистами ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Страна ДевелопментСтрана Девелопмент
  • Москва
2 часа назад
Компания «Ай-Теко» - ведущий российский системный интегратор и поставщик информационных технологий для корпоративных заказчиков. Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП-10 крупнейших IT-к...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
день назад
Мы в поиске Главного специалиста Kubernetes.
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании SkillStaffSkillStaff
  • Москва
день назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.