Работа в Москве
Промышленность, производство
Руководитель группы
Руководитель группы эксплуатации и надежности (лидер команды SRE)

Руководитель группы эксплуатации и надежности (лидер команды SRE)

По договоренности

Правительство Москвы

Обязанности:

Организация рабочих процессов в группе, составление графиков дежурств и контроль.
Обучение членов команды работе с используемыми инструментами и информационными системами.
Анализ и решение инцидентов на втором уровне технической поддержки.
Настройка и поддержка серверов на базе Linux.
Администрирование и оптимизация работы HTTP-сервера nginx.
Мониторинг инфраструктуры с использованием Zabbix, Prometheus, Grafana, Loki.
Построение дашбордов для анализа состояния информационных систем, интеграция с источниками данных, настройка визуализации метрик и событий.
Участие в круглосуточных дежурствах в случае необходимости на территории организации (удаленная работа не допускается).
Взаимодействие с первой линией поддержки, эскалация и решение проблем, взаимодействие с коллегами из других отделов и подрядчиками при решении инцидентов.
Документирование процессов и инструкций для эксплуатации и поддержки, проведение ретроспектив инцидентов и выработка решений по не допущению в будущем.

Требования:

Понимание архитектуры и функционирования сетей: модель OSI, принципы TCP/IP, основы маршрутизации, технологии DNS, DHCP, VPN, NAT.
Опыт сопровождения современных веб-сервисов, включая опыт работы с протоколом HTTP и настройку обратных прокси (nginx), балансировки нагрузки и оптимизации производительности.
Продвинутый уровень владения операционными системами семейства Linux: установка, конфигурирование и поддержка серверов, решение административных задач разного уровня сложности.
Высокий уровень владения средствами мониторинга (Zabbix, Prometheus, Grafana) и сопутствующими технологиями (сбор, обработка и отображение метрик, интеграция с источниками данных, проектирование dashboards).
Отличные навыки выявления и оперативного устранения инцидентов, связанных с сетевыми и сервисными сбоями, ведение пост-мортем-анализа и формирование отчетов.
Представление о принципах виртуализации и контейнеризации, опыт управления виртуализированными средами и контейнерами Docker/Kubernetes.
Знания в области обеспечения отказоустойчивости и построения высокоэффективных распределённых архитектур, в частности интеграция и настройка кластеров, резервных копий и репликаций.
Опыт автоматизации повседневных операций и оптимизации процессов (использование Bash, Python, Ansible и других скриптов и инструментов).

Разработка и сопровождение непрерывных интеграционных и деплоймент-процессов (CI/CD).
Эффективное руководство технической командой, организация взаимодействия коллег, выстраивание доверительных отношений.
Организация рабочего процесса и выполнение планирования ресурсов, своевременное принятие решений, оценка рисков и разработка плана действий по повышению эффективности команды.
Активное участие в разработке долгосрочных планов развития инфраструктуры, влияние на архитектуру и стратегию бизнеса.
Владение английским языком, достаточное для чтения документации.

Условия:

Работа в динамично развивающейся организации Правительства Москвы
Профессиональный коллектив, возможность развития и карьерного роста
Стабильная заработная плата
График работы 5/2

Опубликована 10 дней назад

Вакансия в подборках

Руководитель