Site Reliability Engineer

По договоренности


Команда Infrastructure Platform предоставляет внутренние инструменты и облачные сервисы как услугу для всех продуктовых команд компании, обеспечивая масштабируемую и надежную основу для разработки. Мы не просто "чиним алерты" — мы проектируем платформу, автоматизируем процессы и напрямую влияем на развитие инженерных практик в компании.

Зоны ответственности в команде разделены на четыре фокуса: облачные ресурсы, Kubernetes, базы данных и мониторинг. Сейчас мы ищем коллегу, который будет ответственен за облачные ресурсы.

Стек технологий и процессы

  • Основные технологии: Kubernetes, Terraform, Prometheus, Grafana Stack (Mimir, Alloy, Loki, Tempo, Pyroscope), GitOps/PaaS/IDP(Internal Development Platform), AI driven.
  • Облачные платформы: Azure, Yandex Cloud, в будущем подключим SberCloud.
  • Разработка: Чистый код (Go, Bash, Python) — это обязательная часть работы, а не просто написание скриптов.
  • Процессы: Гибкая методология, еженедельные командные демо и митапы. Обязательное участие в инженерном дежурстве (on-call) примерно раз в 1.5 месяца (недельное дежурство с первичным реагированием на инциденты). Для ночных дежурств предусмотрена дополнительная оплата и день отдыха после.

Мы ожидаем

  • От 5 лет коммерческого опыта в роли SRE/DevOps в продуктовых компаниях
  • Умение видеть картину целиком, анализировать сложные распределенные системы и проектировать надежные решения.
  • Умение самостоятельно ставить цели, принимать решения и доводить задачи до результата
  • Способность ясно объяснять технические концепции, вести диалог с разными командами и аргументировать свою точку зрения.
  • Практический опыт работы с Kubernetes, CI/CD, принципами мониторинга и инфраструктурой как код (добавить другие нужные технологии/скиллы)
  • Готовность и способность писать качественный код для создания инструментов и автоматизации, а не только использовать готовые конфигурации.

Тебе предстоит

  • Операционная работа (30-40% времени): участие в дежурствах, оперативное решение инцидентов, консультация и поддержка других команд по вопросам инфраструктуры.
  • Инженерные и платформенные задачи (60-70% времени): разработка и поддержка инструментов для управления облачной инфраструктурой, автоматизация рутинных процессов, улучшение наблюдаемости (мониторинг, логирование, трейсинг) и надежности сервисов.
  • Коммуникация: активное взаимодействие с командами разработки, безопасности, IT и другими подразделениями для проектирования и внедрения решений

Мы предлагаем

  • Корпоративную культуру, в которой люди сами принимают решения и несут за них ответственность, решая сложные задачи;
  • Условия, которые позволят сосредоточиться на созидании: зарплату, соответствующую уровню ответственности, заботу о здоровье (полная компенсация ДМС со стоматологией с первого дня, компенсация занятий со специалистами на платформе Alter, оплата больничного до 100% 7 дней в год, страховка для выезда зарубеж);
  • Ряд скидок от компаний-партнёров: софинансирование уроков английского языка от Skyeng, доступ к сайту Best Benefits;
  • Обучение на внешних ресурсах за счет компании: профильные конференции и курсы;
  • Высокую скорость профессионального развития. Непрерывно появляются задачи, которые до нас еще никто не делал. И мы не планируем останавливаться;
  • Большую команду единомышленников.

Поделиться:

Опубликована день назад

Похожие вакансии

Задачи Обслуживание production-сервисов S3 Участие в проектировании и внедрении практик управления инфраструктурой Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения Выполнение плановых регламентн...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании VKVK
  • Москва
21 час назад
Сейчас мы в поиске Middle+ Site Reliability Engineer для работы над крупными ИТ-проектами одного из ведущих ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании SibedgeSibedge
  • Москва
5 дней назад
Чем предстоит заниматься: Поддержка работоспособности систем страховой платформы. Выкатка релизов. Развёртывание и поддержка prod/stage/dev сред. Написание Terraform модулей для развёртывания инфраструктуры. Написание Ansible ролей. Обслуживание Kube...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании РосгосстрахРосгосстрах
  • Москва
5 дней назад
Что предстоит делать: Обеспечение мониторинга и стабильной работы сервисов (облачная система управления отелями Sonata PMS). Реакция на инциденты и участие в их расследовании. Автоматизация процессов развертывания и эксплуатации. Улучшение отказоусто...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании HRSHRS
  • Москва
2 дня назад
Задачи Участие в проектировании и внедрении практик управления инфраструктурой Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения Выполнение плановых регламентных работ Участие в on-call дежурства...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании VKVK
  • Москва
5 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.