Главный SRE-инженер
По договоренности
Обязанности:
-Развитие SRE-направления, включая внедрение практик надежности, формирование стандартов эксплуатации и участие в разработке архитектурных решений
-Настройка и сопровождение контейнерной платформы на базе Docker и Kubernetes
-Разработка и сопровождение инфраструктуры как кода с использованием Terraform, Ansible и Helm
-Построение и развитие CI/CD-процессов на базе GitLab CI
-Организация и развитие систем мониторинга и логирования на базе VictoriaMetrics, Grafana и ELK, разработка кастомных экспортеров
-Участие в расследовании инцидентов, проведение postmortem-анализов и снижение MTTR
-Оптимизация процессов реагирования на инциденты и предотвращение повторных сбоев
-Внедрение и контроль SLO, управление Error Budget, разработка дашбордов надежности и проведение регулярных Reliability Review
-Оптимизация инфраструктуры по производительности и стоимости, включая capacity planning, анализ узких мест и cost optimization в облаке.
-Обеспечение стабильности, отказоустойчивости и масштабируемости продуктивных систе
-Настройка процессов резервного копирования, восстановления и реализации планов аварийного восстановления (Disaster Recovery)
-Внедрение практик тестирования устойчивости к сбоям (Chaos Engineering)
-Автоматизация рутинных операций и реализация механизмов самовосстановления (self-healing)
-Участие в архитектурных обсуждениях и выборе технологических решений
Требования:
-Опыт работы в роли Site Reliability Engineer (SRE) не менее 5 лет
-Глубокие практические знания Linux, включая эксплуатацию, диагностику, тюнинг и анализ узких мест
-Уверенное понимание принципов контейнеризации и оркестрации, включая использование Docker и Kubernetes
-Опыт эксплуатации и оптимизации PostgreSQL, MongoDB и Kafka в продуктивных средах
-Глубокое понимание архитектурных принципов высокой доступности и отказоустойчивости распределённых систем
-Опыт построения и поддержки процессов CI/CD, предпочтительно на базе GitLab CI
-Навыки организации системы мониторинга и логирования с использованием Prometheus, VictoriaMetrics, Grafana, ELK/Logstash
-Опыт применения подходов Infrastructure as Code и работы с инструментами Terraform, Ansible, Helm
-Знание и понимание концепций Observability, SRE и Performance Tuning
-Опыт работы с Yandex Cloud, а также другими облачными платформами или on-prem инфраструктурами
-Опыт эксплуатации высоконагруженных систем с высокими требованиями к доступности и производительности
-Опыт участия в дежурствах и реагировании на инциденты в продуктивных системах
-Развитые навыки анализа и устранения инцидентов, включая определение и устранение первопричин
Условия:
-Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
-Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
--Уютный ИТ-хаб в Москве (гибридный формат, 1 раз в неделю удаленно)
-Сложные и интересные задачи, современный стек технологий
-Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
-Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
-Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
-Доступ к бесплатным корпоративным библиотекам Alpina Digital, МИФ и бизнес-изданий
-Развитие SRE-направления, включая внедрение практик надежности, формирование стандартов эксплуатации и участие в разработке архитектурных решений
-Настройка и сопровождение контейнерной платформы на базе Docker и Kubernetes
-Разработка и сопровождение инфраструктуры как кода с использованием Terraform, Ansible и Helm
-Построение и развитие CI/CD-процессов на базе GitLab CI
-Организация и развитие систем мониторинга и логирования на базе VictoriaMetrics, Grafana и ELK, разработка кастомных экспортеров
-Участие в расследовании инцидентов, проведение postmortem-анализов и снижение MTTR
-Оптимизация процессов реагирования на инциденты и предотвращение повторных сбоев
-Внедрение и контроль SLO, управление Error Budget, разработка дашбордов надежности и проведение регулярных Reliability Review
-Оптимизация инфраструктуры по производительности и стоимости, включая capacity planning, анализ узких мест и cost optimization в облаке.
-Обеспечение стабильности, отказоустойчивости и масштабируемости продуктивных систе
-Настройка процессов резервного копирования, восстановления и реализации планов аварийного восстановления (Disaster Recovery)
-Внедрение практик тестирования устойчивости к сбоям (Chaos Engineering)
-Автоматизация рутинных операций и реализация механизмов самовосстановления (self-healing)
-Участие в архитектурных обсуждениях и выборе технологических решений
Требования:
-Опыт работы в роли Site Reliability Engineer (SRE) не менее 5 лет
-Глубокие практические знания Linux, включая эксплуатацию, диагностику, тюнинг и анализ узких мест
-Уверенное понимание принципов контейнеризации и оркестрации, включая использование Docker и Kubernetes
-Опыт эксплуатации и оптимизации PostgreSQL, MongoDB и Kafka в продуктивных средах
-Глубокое понимание архитектурных принципов высокой доступности и отказоустойчивости распределённых систем
-Опыт построения и поддержки процессов CI/CD, предпочтительно на базе GitLab CI
-Навыки организации системы мониторинга и логирования с использованием Prometheus, VictoriaMetrics, Grafana, ELK/Logstash
-Опыт применения подходов Infrastructure as Code и работы с инструментами Terraform, Ansible, Helm
-Знание и понимание концепций Observability, SRE и Performance Tuning
-Опыт работы с Yandex Cloud, а также другими облачными платформами или on-prem инфраструктурами
-Опыт эксплуатации высоконагруженных систем с высокими требованиями к доступности и производительности
-Опыт участия в дежурствах и реагировании на инциденты в продуктивных системах
-Развитые навыки анализа и устранения инцидентов, включая определение и устранение первопричин
Условия:
-Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
-Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
--Уютный ИТ-хаб в Москве (гибридный формат, 1 раз в неделю удаленно)
-Сложные и интересные задачи, современный стек технологий
-Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
-Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
-Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
-Доступ к бесплатным корпоративным библиотекам Alpina Digital, МИФ и бизнес-изданий
Опубликована 20 дней назад
Похожие вакансии
Вакансии быстро закрываются — подпишитесь на наш канал в MAX сейчас, чтобы видеть их первыми.
Подписаться в MAX Команда «Парус электро» - лидер по производству систем бесперебойного питания и электрозарядных станций. Мы выполняем полный комплекс работ по улучшению электропитания, включая: разработку, производство, поставку, пусконаладку и сервисное обслуживани...
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
130 000 - 200 000 ₽
Рыночная зарплата
Рассматриваются кандидаты как с опытом работы по специальности, так и без опыта (в том числе выпускники и студенты старших курсов технических вузов радиотехнической, радиофизической или радиоэлектронной направленности (с возможностью написания диплом...
- Полный день
- Опыт от 3 лет
- Москва
4 дня назад
Сейчас мы усиливаем R&D-направление и ищем QA-инженера, который возьмёт на себя ключевую роль в обеспечении ... стендов тестирования; Организация входного/выходного контроля электроники; Требования: Опыт работы QA-инженером ... / инженером по тестированию от 2–3 лет; Опыт тестирования аппаратных решений; Опыт организации и проведения ...
- Полный день
- Опыт от 3 лет
- Москва
3 дня назад
от 100 000 ₽
... внутренними отделами Участие в согласовании проектных решений и защите смет Наши ожидания: Опыт работы инженером ...
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
150 000 ₽
Обязанности: Подготовка, проверка и сопровождение проектной/рабочей исполнительной документации (Реестры, АОСР, АООК, исполнительные схемы, протоколы, паспорта на материалы) - основное, чем предстоит заниматься; Ведение отчетности по выполненным рабо...
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
... проектирования жилых кварталов и объектов социальной инфраструктуры, приглашаем в команду профессионалов Инженера-конструктора ... Взаимодействие со смежными подразделениями (архитекторы, инженеры инженерных сетей) для увязки проектных ... Опыт работы в должности инженера-конструктора в сфере гражданского строительства от 3-х лет.
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
Вакансия в подборках
Похожие вакансии
130 000 - 200 000 ₽
от 100 000 ₽