Site Reliability Engineer

По договоренности

Москва

Команда Infrastructure Platform предоставляет внутренние инструменты и облачные сервисы как услугу для всех продуктовых команд компании, обеспечивая масштабируемую и надежную основу для разработки. Мы не просто "чиним алерты" — мы проектируем платформу, автоматизируем процессы и напрямую влияем на развитие инженерных практик в компании.

Зоны ответственности в команде разделены на четыре фокуса: облачные ресурсы, Kubernetes, базы данных и мониторинг. Сейчас мы ищем коллегу, который будет ответственен за облачные ресурсы.

Стек технологий и процессы

Основные технологии: Kubernetes, Terraform, Prometheus, Grafana Stack (Mimir, Alloy, Loki, Tempo, Pyroscope), GitOps/PaaS/IDP(Internal Development Platform), AI driven.
Облачные платформы: Azure, Yandex Cloud, в будущем подключим SberCloud.
Разработка: Чистый код (Go, Bash, Python) — это обязательная часть работы, а не просто написание скриптов.
Процессы: Гибкая методология, еженедельные командные демо и митапы. Обязательное участие в инженерном дежурстве (on-call) примерно раз в 1.5 месяца (недельное дежурство с первичным реагированием на инциденты). Для ночных дежурств предусмотрена дополнительная оплата и день отдыха после.

Мы ожидаем

От 5 лет коммерческого опыта в роли SRE/DevOps в продуктовых компаниях
Умение видеть картину целиком, анализировать сложные распределенные системы и проектировать надежные решения.
Умение самостоятельно ставить цели, принимать решения и доводить задачи до результата
Способность ясно объяснять технические концепции, вести диалог с разными командами и аргументировать свою точку зрения.
Практический опыт работы с Kubernetes, CI/CD, принципами мониторинга и инфраструктурой как код (добавить другие нужные технологии/скиллы)
Готовность и способность писать качественный код для создания инструментов и автоматизации, а не только использовать готовые конфигурации.

Тебе предстоит

Операционная работа (30-40% времени): участие в дежурствах, оперативное решение инцидентов, консультация и поддержка других команд по вопросам инфраструктуры.
Инженерные и платформенные задачи (60-70% времени): разработка и поддержка инструментов для управления облачной инфраструктурой, автоматизация рутинных процессов, улучшение наблюдаемости (мониторинг, логирование, трейсинг) и надежности сервисов.
Коммуникация: активное взаимодействие с командами разработки, безопасности, IT и другими подразделениями для проектирования и внедрения решений

Мы предлагаем

Корпоративную культуру, в которой люди сами принимают решения и несут за них ответственность, решая сложные задачи;
Условия, которые позволят сосредоточиться на созидании: зарплату, соответствующую уровню ответственности, заботу о здоровье (полная компенсация ДМС со стоматологией с первого дня, компенсация занятий со специалистами на платформе Alter, оплата больничного до 100% 7 дней в год, страховка для выезда зарубеж);
Ряд скидок от компаний-партнёров: софинансирование уроков английского языка от Skyeng, доступ к сайту Best Benefits;
Обучение на внешних ресурсах за счет компании: профильные конференции и курсы;
Высокую скорость профессионального развития. Непрерывно появляются задачи, которые до нас еще никто не делал. И мы не планируем останавливаться;
Большую команду единомышленников.

⚡ Откликнуться на hh.ru

Опубликована 21 день назад

Site Reliability Engineer в HotBox S3

Задачи Обслуживание production-сервисов S3 Участие в проектировании и внедрении практик управления инфраструктурой Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения Выполнение плановых регламентн...

Можно удаленно
Полный день
Опыт от 3 лет

Москва

21 день назад

⚡ Откликнуться на hh.ru

DevOps Site Reliability Engineer / SRE

Чем предстоит заниматься: Поддержка работоспособности систем страховой платформы. Выкатка релизов. Развёртывание и поддержка prod/stage/dev сред. Написание Terraform модулей для развёртывания инфраструктуры. Написание Ansible ролей. Обслуживание Kube...

Можно удаленно
Полный день
Опыт от 3 лет

Росгосстрах

Москва

25 дней назад

⚡ Откликнуться на hh.ru

Site Reliability Engineer в VK WorkSpace

Задачи Участие в проектировании и внедрении практик управления инфраструктурой Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения Выполнение плановых регламентных работ Участие в on-call дежурства...

Можно удаленно
Полный день
Опыт от 3 лет

Москва

25 дней назад

⚡ Откликнуться на hh.ru

Инфраструктурный инженер (Infrastructure Software Engineer/Site Reliability Engineering)

Что предстоит делать: Обеспечение мониторинга и стабильной работы сервисов (облачная система управления отелями Sonata PMS). Реакция на инциденты и участие в их расследовании. Автоматизация процессов развертывания и эксплуатации. Улучшение отказоусто...

Можно удаленно
Полный день
Опыт от 3 лет

HRS

Москва

22 дня назад

⚡ Откликнуться на hh.ru

DevOps Engineer

... инициативу, обратную связь и гибкость ролей Требования Опыт работы от 3 лет в ролях DevOps / SRE / Cloud Engineer ... / Solution Engineer / Sales Engineer или аналогичных Уверенное понимание современных инфраструктурных ...

Можно удаленно
Полный день
Опыт от 3 лет

Wanted

Москва

13 минут назад

⚡ Откликнуться на hh.ru

Site Reliability Engineer

По договоренности

Похожие вакансии

Site Reliability Engineer в HotBox S3

DevOps Site Reliability Engineer / SRE

Site Reliability Engineer в VK WorkSpace

Инфраструктурный инженер (Infrastructure Software Engineer/Site Reliability Engineering)

DevOps Engineer

Вакансия в подборках

Похожие вакансии