Руководитель группы эксплуатации и надежности (лидер команды SRE)

По договоренности


Обязанности:

  • Организация рабочих процессов в группе, составление графиков дежурств и контроль.

  • Обучение членов команды работе с используемыми инструментами и информационными системами.

  • Анализ и решение инцидентов на втором уровне технической поддержки.

  • Настройка и поддержка серверов на базе Linux.

  • Администрирование и оптимизация работы HTTP-сервера nginx.

  • Мониторинг инфраструктуры с использованием Zabbix, Prometheus, Grafana, Loki.

  • Построение дашбордов для анализа состояния информационных систем, интеграция с источниками данных, настройка визуализации метрик и событий.

  • Участие в круглосуточных дежурствах в случае необходимости на территории организации (удаленная работа не допускается).

  • Взаимодействие с первой линией поддержки, эскалация и решение проблем, взаимодействие с коллегами из других отделов и подрядчиками при решении инцидентов.

  • Документирование процессов и инструкций для эксплуатации и поддержки, проведение ретроспектив инцидентов и выработка решений по не допущению в будущем.

Требования:

  • Понимание архитектуры и функционирования сетей: модель OSI, принципы TCP/IP, основы маршрутизации, технологии DNS, DHCP, VPN, NAT.

  • Опыт сопровождения современных веб-сервисов, включая опыт работы с протоколом HTTP и настройку обратных прокси (nginx), балансировки нагрузки и оптимизации производительности.

  • Продвинутый уровень владения операционными системами семейства Linux: установка, конфигурирование и поддержка серверов, решение административных задач разного уровня сложности.

  • Высокий уровень владения средствами мониторинга (Zabbix, Prometheus, Grafana) и сопутствующими технологиями (сбор, обработка и отображение метрик, интеграция с источниками данных, проектирование dashboards).

  • Отличные навыки выявления и оперативного устранения инцидентов, связанных с сетевыми и сервисными сбоями, ведение пост-мортем-анализа и формирование отчетов.

  • Представление о принципах виртуализации и контейнеризации, опыт управления виртуализированными средами и контейнерами Docker/Kubernetes.

  • Знания в области обеспечения отказоустойчивости и построения высокоэффективных распределённых архитектур, в частности интеграция и настройка кластеров, резервных копий и репликаций.

  • Опыт автоматизации повседневных операций и оптимизации процессов (использование Bash, Python, Ansible и других скриптов и инструментов).

    Разработка и сопровождение непрерывных интеграционных и деплоймент-процессов (CI/CD).

  • Эффективное руководство технической командой, организация взаимодействия коллег, выстраивание доверительных отношений.

  • Организация рабочего процесса и выполнение планирования ресурсов, своевременное принятие решений, оценка рисков и разработка плана действий по повышению эффективности команды.

  • Активное участие в разработке долгосрочных планов развития инфраструктуры, влияние на архитектуру и стратегию бизнеса.

  • Владение английским языком, достаточное для чтения документации.

Условия:

  • Работа в динамично развивающейся организации Правительства Москвы
  • Профессиональный коллектив, возможность развития и карьерного роста
  • Стабильная заработная плата
  • График работы 5/2

Поделиться:

Опубликована 10 дней назад

Вакансия в подборках

  1. Руководитель
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.