Site Reliability Engineer
По договоренности
Команда Infrastructure Platform предоставляет внутренние инструменты и облачные сервисы как услугу для всех продуктовых команд компании, обеспечивая масштабируемую и надежную основу для разработки. Мы не просто "чиним алерты" — мы проектируем платформу, автоматизируем процессы и напрямую влияем на развитие инженерных практик в компании.
Зоны ответственности в команде разделены на четыре фокуса: облачные ресурсы, Kubernetes, базы данных и мониторинг. Сейчас мы ищем коллегу, который будет ответственен за облачные ресурсы.
Стек технологий и процессы
- Основные технологии: Kubernetes, Terraform, Prometheus, Grafana Stack (Mimir, Alloy, Loki, Tempo, Pyroscope), GitOps/PaaS/IDP(Internal Development Platform), AI driven.
- Облачные платформы: Azure, Yandex Cloud, в будущем подключим SberCloud.
- Разработка: Чистый код (Go, Bash, Python) — это обязательная часть работы, а не просто написание скриптов.
- Процессы: Гибкая методология, еженедельные командные демо и митапы. Обязательное участие в инженерном дежурстве (on-call) примерно раз в 1.5 месяца (недельное дежурство с первичным реагированием на инциденты). Для ночных дежурств предусмотрена дополнительная оплата и день отдыха после.
Мы ожидаем
- От 5 лет коммерческого опыта в роли SRE/DevOps в продуктовых компаниях
- Умение видеть картину целиком, анализировать сложные распределенные системы и проектировать надежные решения.
- Умение самостоятельно ставить цели, принимать решения и доводить задачи до результата
- Способность ясно объяснять технические концепции, вести диалог с разными командами и аргументировать свою точку зрения.
- Практический опыт работы с Kubernetes, CI/CD, принципами мониторинга и инфраструктурой как код (добавить другие нужные технологии/скиллы)
- Готовность и способность писать качественный код для создания инструментов и автоматизации, а не только использовать готовые конфигурации.
Тебе предстоит
- Операционная работа (30-40% времени): участие в дежурствах, оперативное решение инцидентов, консультация и поддержка других команд по вопросам инфраструктуры.
- Инженерные и платформенные задачи (60-70% времени): разработка и поддержка инструментов для управления облачной инфраструктурой, автоматизация рутинных процессов, улучшение наблюдаемости (мониторинг, логирование, трейсинг) и надежности сервисов.
- Коммуникация: активное взаимодействие с командами разработки, безопасности, IT и другими подразделениями для проектирования и внедрения решений
Мы предлагаем
- Корпоративную культуру, в которой люди сами принимают решения и несут за них ответственность, решая сложные задачи;
- Условия, которые позволят сосредоточиться на созидании: зарплату, соответствующую уровню ответственности, заботу о здоровье (полная компенсация ДМС со стоматологией с первого дня, компенсация занятий со специалистами на платформе Alter, оплата больничного до 100% 7 дней в год, страховка для выезда зарубеж);
- Ряд скидок от компаний-партнёров: софинансирование уроков английского языка от Skyeng, доступ к сайту Best Benefits;
- Обучение на внешних ресурсах за счет компании: профильные конференции и курсы;
- Высокую скорость профессионального развития. Непрерывно появляются задачи, которые до нас еще никто не делал. И мы не планируем останавливаться;
- Большую команду единомышленников.
Опубликована день назад
Похожие вакансии
Вакансии быстро закрываются — подпишитесь на наш канал в MAX сейчас, чтобы видеть их первыми.
Подписаться в MAX Задачи Обслуживание production-сервисов S3 Участие в проектировании и внедрении практик управления инфраструктурой Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения Выполнение плановых регламентн...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
21 час назад
Сейчас мы в поиске Middle+ Site Reliability Engineer для работы над крупными ИТ-проектами одного из ведущих ...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
5 дней назад
Чем предстоит заниматься: Поддержка работоспособности систем страховой платформы. Выкатка релизов. Развёртывание и поддержка prod/stage/dev сред. Написание Terraform модулей для развёртывания инфраструктуры. Написание Ansible ролей. Обслуживание Kube...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
5 дней назад
Что предстоит делать: Обеспечение мониторинга и стабильной работы сервисов (облачная система управления отелями Sonata PMS). Реакция на инциденты и участие в их расследовании. Автоматизация процессов развертывания и эксплуатации. Улучшение отказоусто...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
Задачи Участие в проектировании и внедрении практик управления инфраструктурой Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения Выполнение плановых регламентных работ Участие в on-call дежурства...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
5 дней назад