DevOps инженер (Kandinsky)

По договоренности


Кандинский — генеративная нейросеть Сбера для создания изображений и видео. Команда занимается разработкой, обучением и развитием модели, а также аналитикой и построением метрик её работы.

Обязанности

  • проектирование, развертывание и дальнейшая эксплуатация кластеров Kubernetes в инфраструктуре cloud.ru, включая настройку сетевой модели, конфигурацию узлов и обеспечение отказоустойчивости
  • установка, конфигурирование и сопровождение Apache Airflow в составе кластера: настройка окружения, обновления, мониторинг стабильности и производительности
  • проектирование и реализация безопасного выхода сервисов в интернет: настройка firewall/NAT, управление маршрутизацией, внедрение best practices по сетевой безопасности
  • развертывание и администрирование ClickHouse (включая настройку резервного копирования и стратегий восстановления данных), а также поддержка PostgreSQL
  • поднятие и поддержка кластера PySpark для обработки данных: настройка ресурсов, интеграция с системами хранения, мониторинг и оптимизация производительности
  • внедрение, настройка и эксплуатация self-hosted GitLab, включая CI/CD, runners и безопасный доступ
  • настройка и поддержка системы мониторинга (Prometheus, Grafana или аналогичные решения): создание метрик, дашбордов, алертинга, анализ деградаций и предложение улучшений
  • проведение диагностики инцидентов, восстановление работоспособности систем, улучшение надёжности инфраструктуры
  • автоматизация процессов инфраструктуры: написание скриптов и утилит на Python и Bash, работа с Jenkins и CI/CD-конвейерами
  • взаимодействие с командой разработки, помощь в формировании требований и внедрении новых сервисов.

Требования

  • уверенный опыт развертывания и администрирования Kubernetes-кластеров (желательно в облачных платформах, таких как cloud.ru).
  • глубокие знания принципов сетевой организации: маршрутизация, VPN, NAT, firewall, приватные сети, L3/L4 балансировка
  • опыт проектирования безопасного сетевого периметра и организации защищённого выхода сервисов в интернет
  • практический опыт установки и настройки Airflow в self-hosted среде
  • опыт работы с ClickHouse (включая конфигурацию sharding/replication, резервное копирование) и PostgreSQL
  • опыт установки и эксплуатации GitLab, конфигурация pipelines и CI/CD
  • уверенное владение Python и Bash для задач автоматизации
  • навыки работы с Jenkins (проектирование pipelines, интеграционные задачи)
  • опыт работы с продуктами Apache: Kafka, Spark (а также Hive и Iceberg как плюс)
  • готовность к командной работе, ответственность, умение ясно коммуницировать технические решения.

Условия

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность быть соавтором НИРов и статей для международных конференций
  • возможность выбрать удобный формат работы: гибрид или офис
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.

Поделиться:

Опубликована 17 часов назад

Похожие вакансии

  • Полный день
  • Опыт от 3 лет
  • Москва
2 дня назад
  • Полный день
  • Опыт от 3 лет
  • Москва
17 часов назад
  • Полный день
  • Опыт от 3 лет
  • Москва
17 часов назад
  • Полный день
  • Опыт от 3 лет
  • Москва
13 часов назад
от 200 000 ₽
  • Полный день
  • Опыт от 3 лет
  • Москва
17 часов назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.