- Работа в Москве
- Промышленность, производство
- Руководитель группы
- Руководитель группы эксплуатации и надежности (лидер команды SRE)
Руководитель группы эксплуатации и надежности (лидер команды SRE)
По договоренности
Обязанности:
-
Организация рабочих процессов в группе, составление графиков дежурств и контроль.
-
Обучение членов команды работе с используемыми инструментами и информационными системами.
-
Анализ и решение инцидентов на втором уровне технической поддержки.
-
Настройка и поддержка серверов на базе Linux.
-
Администрирование и оптимизация работы HTTP-сервера nginx.
-
Мониторинг инфраструктуры с использованием Zabbix, Prometheus, Grafana, Loki.
-
Построение дашбордов для анализа состояния информационных систем, интеграция с источниками данных, настройка визуализации метрик и событий.
-
Участие в круглосуточных дежурствах в случае необходимости на территории организации (удаленная работа не допускается).
-
Взаимодействие с первой линией поддержки, эскалация и решение проблем, взаимодействие с коллегами из других отделов и подрядчиками при решении инцидентов.
-
Документирование процессов и инструкций для эксплуатации и поддержки, проведение ретроспектив инцидентов и выработка решений по не допущению в будущем.
Требования:
-
Понимание архитектуры и функционирования сетей: модель OSI, принципы TCP/IP, основы маршрутизации, технологии DNS, DHCP, VPN, NAT.
-
Опыт сопровождения современных веб-сервисов, включая опыт работы с протоколом HTTP и настройку обратных прокси (nginx), балансировки нагрузки и оптимизации производительности.
-
Продвинутый уровень владения операционными системами семейства Linux: установка, конфигурирование и поддержка серверов, решение административных задач разного уровня сложности.
-
Высокий уровень владения средствами мониторинга (Zabbix, Prometheus, Grafana) и сопутствующими технологиями (сбор, обработка и отображение метрик, интеграция с источниками данных, проектирование dashboards).
-
Отличные навыки выявления и оперативного устранения инцидентов, связанных с сетевыми и сервисными сбоями, ведение пост-мортем-анализа и формирование отчетов.
-
Представление о принципах виртуализации и контейнеризации, опыт управления виртуализированными средами и контейнерами Docker/Kubernetes.
-
Знания в области обеспечения отказоустойчивости и построения высокоэффективных распределённых архитектур, в частности интеграция и настройка кластеров, резервных копий и репликаций.
-
Опыт автоматизации повседневных операций и оптимизации процессов (использование Bash, Python, Ansible и других скриптов и инструментов).
Разработка и сопровождение непрерывных интеграционных и деплоймент-процессов (CI/CD).
-
Эффективное руководство технической командой, организация взаимодействия коллег, выстраивание доверительных отношений.
-
Организация рабочего процесса и выполнение планирования ресурсов, своевременное принятие решений, оценка рисков и разработка плана действий по повышению эффективности команды.
-
Активное участие в разработке долгосрочных планов развития инфраструктуры, влияние на архитектуру и стратегию бизнеса.
-
Владение английским языком, достаточное для чтения документации.
Условия:
- Работа в динамично развивающейся организации Правительства Москвы
- Профессиональный коллектив, возможность развития и карьерного роста
- Стабильная заработная плата
- График работы 5/2
Опубликована 10 дней назад