Руководитель группы мониторинга / Head of Monitoring & Incident Management

По договоренности

  • Смоленская
  • Киевская
  • Парк Победы

Команда мониторинга отвечает за стабильность и доступность ключевых сервисов компании. Наша группа Incident Management — это 8 специалистов, которые круглосуточно следят за системами, быстро реагируют на инциденты и помогают бизнесу работать без перебоев. Сейчас мы ищем руководителя, который сможет развивать процессы и команду, а также вывести автоматизацию на новый уровень.

Обязанности:

  • Руководить процессами мониторинга и управления инцидентами: от первых сигналов до полного восстановления сервиса.

  • Управлять командой (8 человек): ставить цели, помогать развиваться, поддерживать on-call процессы и процессы по дежурствам.
  • Формулировать и достигать цели по ключевым метрикам (OKR): сокращать количество инцидентов, уменьшать время реакции и восстановления, снижать даунтайм.
  • Внедрять автоматизацию: боты, скрипты, интеграции для ускорения реагирования и устранения рутины.
  • Работать с разными системами: Atlassian-стек (Jira, Confluence) и наши собственные разработки.
  • Организовывать постмортемы: находить корневые причины и внедрять улучшения.
  • Следить за выполнением SLA, готовить необходимые отчёты
  • Развивать базу знаний и рабочие инструкции, проводить учения по инцидентам.

Что мы ждём от вас:

  • Опыт работы в мониторинге, Incident Management, NOC или SRE (от 5 лет), из них минимум 2 года — в роли тимлида или руководителя.
  • Умение управлять инцидентами в роли Incident Manager/Commander, расставлять приоритеты и быстро принимать решения.
  • Опыт работы с OKR и достижением метрик надежности (MTTA, MTTR, SLA).
  • Владение Python и SQL на уровне написания скриптов, автоматизации и анализа данных.
  • Знание инструментов мониторинга и APM, умение работать с разными системами (Prometheus, Zabbix, Grafana и др.), готовность быстро осваивать новые.
  • Опыт работы с Jira, Confluence или аналогичными ITSM-системами.
  • Навыки проведения постмортемов и внедрения улучшений.
  • Хорошие коммуникативные навыки: умение доносить информацию как до инженеров, так и до бизнеса. Также желателен разговорный английский язык (коммуникация с коллегами из Китая)

Будет плюсом

  • Опыт в SRE/DevOps и автоматизации инфраструктуры.
  • Знание Kubernetes, облачных платформ.
  • Практика внедрения чат-ботов для поддержки on-call и интеграций с мессенджерами.

Условия:

  • Работу в одной из крупнейших в России компаний в сфере e-commerce
  • Конкурентоспособную заработную плату с бонусами по результатам работы
  • MacBook Pro 13/16
  • ДМС и страхование от несчастных случаев (со 100% страхованием детей)
  • Гибридный график работы

Адрес: Россия, Москва, Пресненская набережная, 10блокС

Поделиться:

Опубликована 9 дней назад

Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.