Site Reliability Engineer (SRE)
По договоренности
- Горьковская
Чем предстоит заниматься:
- обеспечение надежности и доступности приватного облака и ключевых сервисов в двух ЦОД на основе SLO/SLI, error budget;
- эксплуатация и развитие облачной платформы с акцентом на отказоустойчивость, предсказуемость поведения и скорость восстановления;
- проектирование и развитие наблюдаемости: метрики, логи, трейсы; определение SLI/SLO, настройка алертинга, борьба с шумом, создание эксплуатационных дашбордов;
- участие в on‑call (2nd/3rd line): разбор инцидентов, локализация проблем в платформе и сервисах, координация действий с DevOps и сетевой командой, подготовка и проведение postmortem, реализация предотвращающих мер;
- планирование устойчивости и отказоустойчивости: сценарии отказов между двумя ЦОД, определение RTO/RPO, подготовка и регулярная проверка DR‑плана;
- планирование емкости и производительности: анализ трендов нагрузки, выявление bottleneck’ов, подготовка рекомендаций по масштабированию, квотированию и оптимизации использования ресурсов;
- автоматизация эксплуатационных операций в парадигме IaC: создание и сопровождение модулей Terraform/Ansible и утилит на Python/Go/Bash для диагностики, self‑healing, health‑checks, ротаций, housekeeping и типовых изменений;
- участие в архитектурных ревью сервисов (со стороны надежности): требования к readiness/liveness‑пробам, ретраям, timeouts, деградации, feature flags, идемпотентности операций;
- совместная работа с DevOps по улучшению релизных практик: стратегии rollout/rollback (canary, blue‑green), проверки на этапах пайплайна, требования к артефактам и манифестам с точки зрения эксплуатации;
- совместная работа с сетевыми специалистами: формулирование требований к отказоустойчивости и наблюдаемости сети, участие в тестах отказов и анализе сетевых инцидентов;
- ведение эксплуатационной документации и базы знаний: ранбуки, инструкции для on‑call, схемы взаимодействия сервисов, чек‑листы для релизов и крупных изменений.
Наши ожидания от кандидата:
- опыт в роли SRE / инженера эксплуатации / DevOps в production‑средах с критичными сервисами и участием в on‑call;
- практический опыт работы с приватными или публичными облаками (желательно Selectel / VK Cloud / K2 Cloud или аналогичные), понимание типовых сервисов IaaS/PaaS;
- уверенный Linux/Unix: диагностика проблем (CPU, память, диски, сеть на уровне хоста), работа с системными логами и инструментами трейсинга/профилирования;
- понимание принципов надежных распределённых систем: кворумы, консистентность, ретраи с backoff, circuit breaker, кэширование, очереди, лимитирование и управление приоритетами;
- опыт эксплуатации Kubernetes или иных систем оркестрации и/или IaaS‑платформ: понимание типичных failure‑mode’ов кластера и приложений, умение читать и разбирать манифесты;
- уверенные навыки скриптинга (Python или Go, возможно Bash) для автоматизации эксплуатационных задач и интеграции с API облаков, систем мониторинга и CMDB;
- практический опыт построения мониторинга и логирования (Prometheus/Zabbix, Grafana, ELK/Loki/аналогичные) с упором на SLO‑ориентированный алертинг;
- опыт применения Infrastructure as Code: Terraform, Ansible или аналогичные инструменты, ведение инфраструктуры в Git, code review инфраструктурного кода, понимание GitOps‑подхода.
Будет плюсом:
- опыт работы с managed‑сервисами российских облаков: Kubernetes, базы данных, очереди/шины сообщений, object storage, балансировщики;
- опыт в высоконагруженных и/или высокорегулируемых доменах (финансы, корпоративный сектор, gov), понимание требований к SLA, безопасности и аудиту;
- знакомство с практиками DevSecOps: управление секретами, сканирование образов и IaC, безопасные пайплайны;
- готовность разделять ответственность за надежность платформы и дежурства с другим SRE, участвовать в построении процессов on‑call;
- системное мышление и ориентация на данные: опора на метрики, логи, эксперименты и результаты postmortem, а не на интуицию и «ручные» решения;
- умение ясно и структурированно коммуницировать с разработчиками, DevOps, сетевыми инженерами и менеджментом, формулировать понятные требования и аргументировать решения;
- прагматичный подход: умение балансировать между идеальной надежностью, реальными SLO, error budget и ресурсами команды.
Адрес: Россия, Нижний Новгород, проспект Гагарина, 50к9
Опубликована 3 дня назад
Похожие вакансии
В Т‑Банк большое и продвинутое хранилище данных: это 8000 объектов, 800 ТБ в Greenplum и 110 ТБ в Clickhouse. С данными активно работают более 16 тысяч пользователей из бизнес-команд — они ежедневно принимают десятки решений с опорой на них. А наша к...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Нижний Новгород
10 дней назад
от 280 000 ₽
Выше средней на 60%
Опыт работы: от 3-х лет на позиции python-разработчика / data engineer c опытом работы в МФО / банках ...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Нижний Новгород
7 дней назад
Привет, соискатель! В данный момент мы находимся в поиске Инженера данных для развития инфраструктуры на базе YandexCloud. Основным проектом которого станет перенос текущей базы данных из Google Cloud BigQuery в YandexCloud Managed ClickHouse, а такж...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Нижний Новгород
10 дней назад
до 70 000 ₽
С 2009 года “Лаборатория Качества” занимается тестированием программного обеспечения. Наша главная фишка - команда. Мы действительно обожаем свою работу и кайфуем от того, что делаем. Стремясь к лучшему мы развиваемся, гордимся достигнутым и собираем...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Нижний Новгород
18 дней назад
Миссия роли: Разрабатывать, интегрировать и поддерживать core-компоненты платформы ИИ-агентов. Фактически стать ключевым мостом между Python-миром AI/ML и основным продуктовым стеком компании. Ключевые задачи: Разработка backend-сервисов на Python (F...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Нижний Новгород
17 дней назад
Вакансия в подборках
Похожие вакансии
от 280 000 ₽