DevOps Engineer / MLOps (в офис)

По договоренности

  • Марксистская
  • Третьяковская
  • Маяковская

Обязанности:

Проектирование и построение ML/AI инфраструктуры:

• Создание и поддержка архитектуры для разработки, обучения и эксплуатации ИИ-моделей

• Проектирование и внедрение MLOps-платформы для управления жизненным циклом ML-моделей

• Настройка окружений для разработки, тестирования и продакшена ИИ-решений

• Организация инфраструктуры для работы с LLM (Large Language Models) и векторными базами данных

• Обеспечение возможности работы с GPU-ресурсами для обучения и инференса моделей

CI/CD и автоматизация

• Разработка и внедрение CI/CD пайплайнов для ИИ-решений и микросервисов

• Автоматизация процессов сборки, тестирования и развертывания приложений

• Настройка версионирования моделей, данных и артефактов

• Создание инструментов для автоматизированного мониторинга качества моделей (model drift detection).

• Подбор и настройка инструментов для автоматизации рутинных операций

Контейнеризация и оркестрация:

• Проектирование и внедрение решений на базе контейнерных окружений

• Развертывание и администрирование Kubernetes-кластеров

• Создание Helm-чартов для стандартизации развертывания приложений (опционально)

• Настройка масштабирования сервисов в зависимости от событий и метрик производительности

• Оптимизация использования ресурсов контейнеров

Мониторинг и обеспечение надежности:

• Внедрение систем мониторинга инфраструктуры и приложений (Prometheus, Grafana, ELK Stack)

• Настройка алертинга и систем оповещения о критических событиях

• Мониторинг производительности ИИ-моделей в продакшене

• Обеспечение высокой доступности (HA) критичных сервисов

• Разработка и тестирование процедур disaster recovery

• Проведение анализа инцидентов и внедрение мер по их предотвращению

Безопасность и соответствие требованиям:

• Внедрение практик DevSecOps на всех этапах разработки

• Обеспечение безопасности контейнеров и образов

• Настройка сетевой безопасности и политик доступа

• Аудит безопасности инфраструктуры и устранение уязвимостей

• Обеспечение соответствия требованиям по защите данных

Масштабирование и оптимизация:

• Планирование и реализация стратегии масштабирования инфраструктуры

• Оптимизация использования вычислительных ресурсов и затрат на облачную инфраструктуру

• Проведение нагрузочного тестирования и capacity planning

• Помощь в оптимизации производительности приложений и баз данных

• Внедрение кэширования и CDN для ускорения работы сервисов

Стандартизация и документирование:

• Разработка и внедрение стандартов DevOps-практик для команды

• Создание и поддержка Infrastructure as Code (IaC) с использованием Terraform, Kustomization, Helm,

• Документирование архитектуры, процессов и процедур

• Создание runbook'ов для типовых операционных задач

• Разработка best practices для разработчиков по работе с инфраструктурой

Взаимодействие и менторинг:

• Тесное сотрудничество с командами разработки (AI/ML Engineers, Data Engineers)

• Консультирование разработчиков по вопросам инфраструктуры и деплоя

• Участие в архитектурных сессиях и технических ревью

• Обучение команды современным практикам взаимодействия с инфраструктурой

• Организация knowledge sharing сессий

Требования:

Обязательные:

• Контейнеризация и оркестрация: практический опыт администрирования Kubernetes (3+ года)

• CI/CD: опыт построения пайплайнов в GitLab CI/CD, Jenkins, GitHub Actions или аналогах

• Infrastructure as Code: уверенное владение Terraform, Helm, Kustomization

• Облачные платформы: практический опыт работы с AWS, Azure, Yandex Cloud или аналогичными облачными провайдерами

• Автоматизация: уверенное владение актуальными средствами автоматизации Bash, preHooks etc

• Мониторинг: опыт настройки актуальных систем мониторинга (ELK\EFK\Loki, Grafana, OpenTelemetry, Prometheus etc)

• Системное администрирование: глубокое знание Linux

• Сетевые технологии: понимание TCP/IP, DNS, Load Balancing, Reverse Proxy. Так же плюсом будет знание BGP и Service Mesh

• Версионирование: продвинутое владение Git, Git Flow

• Базы данных: опыт администрирования Clickhouse, PostgreSQL, NoSQL KeyValue (Valkey, Dragonfly, Redis etc), , понимание репликации и backup-стратегий

Желательно (будет плюсом):

• MLOps: опыт работы с MLflow, Kubeflow, Airflow для ML-пайплайнов

• Service Mesh: знание Istio, Linkerd

• Безопасность: опыт работы с HashiCorp Vault, настройка RBAC, Network Policies

• Observability: опыт с Jaeger, OpenTelemetry для distributed tracing

• GitOps: знание ArgoCD, Flux

• Serverless: опыт работы с AWS Lambda, Knative

• GPU-инфраструктура: опыт настройки CUDA, nvidia-docker для ML-задач, NVIDIA Operator k8s

• Векторные БД: опыт развертывания Qdrant, Milvus, Weaviate

• Message Brokers: опыт работы с Kafka, RabbitMQ, NATS

Условия:
  • Офис находится : г. Москва, наб. Пресненская, д.10 (Москва-Сити);

  • График работы: пятидневная рабочая неделя с понедельника по пятницу , выходные: суббота, воскресенье;

  • Период испытательного срока: 3 месяца;

  • ДМС;

  • Годовой бонус;

  • Профессиональное обучение и развитие;

  • Возможность реализовать свой потенциал и построить карьеру.

  • Конкурентоспособный уровень заработной платы.

  • Участие в интересных и масштабных проектах.


Адрес: Россия, Москва
Показать на большой карте

Поделиться:

Опубликована 3 часа назад

Похожие вакансии

Бренд MIXIT- российская косметическая компания, концепт истинной красоты, экспертизы и инноваций. Мы разрабатываем только оригинальные формулы, отвечающие современным стандартам и трендам. В 2014 году небольшой командой профессионалов был основан бре...
  • Полный день
  • Опыт от 3 лет
Логотип компании MIXITMIXIT
  • Москва
час назад
Ищем проактивных, мотивированных сотрудников для реализации новой амбициозной задачи - функционала Партнерского канала Сбера, комплексного партнерского приложения, включающее в себя подключение партнеров Сбера, инструменты по передаче заявок клиентов...
  • Полный день
  • Опыт от 3 лет
Логотип компании СБЕРСБЕР
  • Москва
3 часа назад
Вы сможете стать частью команды, которая отвечает за бесперебойную работу многопетабайтного хранилища данных для обучения ИИ, внедрение и поддержку новых инструментов для работы с ними. Обязанности развертывать и поддерживать инфраструктуры в облаке ...
  • Полный день
  • Опыт от 3 лет
Логотип компании СБЕРСБЕР
  • Москва
2 часа назад
О нас: Мы опытная команда в реализации и продвижении SaaS продуктов на рынки СНГ и зарубежом. У нас открылась новая позиция для Middle+/DevOps инженера, который будет поддерживать и развивать техническую сторону уже реализованного продукта. Позиция с...
  • Полный день
  • Опыт от 3 лет
Логотип компании Lenkep recruitmentLenkep recruitment
  • Москва
17 часов назад
Международная продуктовая IT компания, которая занимается разработкой и поддержкой высоконагруженных проектов для крупных компаний, основная часть которых представляет собой развлекательные онлайн-сервисы, в поисках опытного инженера в команду команд...
  • Полный день
  • Опыт от 3 лет
Логотип компании EmploycityEmploycity
  • Москва
10 часов назад
Productivity platform - занимается развитием платформы для работы инструментов производственного процесса. Основными задачами команды является предоставление удобных и надёжных сервисов для стабильной работы инструментов разработки, тестирования и ди...
  • Полный день
  • Опыт от 3 лет
Логотип компании СБЕРСБЕР
  • Москва
26 минут назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.