Product DevOps / Senior SRE / Infrastructure Reliability Engineer

По договоренности


Мы делаем тикетницу “на стероидах” для продуктовых технических поддержек, которая чаще всего ставится on-premise на оборудование клиентов и встраивается в их инфраструктуру. Но иногда и по модели SaaS в нашем облаке.

Нужен человек, который может и хочет стать архитектором надежности нашего продукта. Вы возьмете на себя весь цикл стабильности — от глубокого анализа инцидентов до проактивного укрепления инфраструктуры.

Чем вы будете заниматься:

Фокус на надежности и поддерживаемости продукта:

  • Проведение глубокого траблшутинга сложных инцидентов 3-й линии: производительность сервера на Linux, проблемы сети (в том числе специфичное - взаимодействие продукта с внешними балансировщиками и реверс прокси, траблшутинг WebSockets), интеграции (внешние API, вебхуки), проблемы доставляемости почты (протоколы SMTP, IMAP).

  • Локализация корневых причин проблем на стыке приложения и инфраструктуры с использованием логов, метрик и данных профилирования. Вы не будете исправлять код, но ваши выводы будут служить для разработчиков будут максимально точной локализацией проблемы.

  • Проактивная работа: развитие мониторинга, логирования и алертинга для предотвращения сбоев.

Развитие инфраструктуры и автоматизация:

  • Развитие скрипта установщика (Bash), чтобы сделать процесс развертывания у клиентов максимально простым и безошибочным.

  • Полный контроль над CI/CD: сборка билдов, управление процессом релиза и деплоя.

  • Упаковка продукта с использованием Terraform и cloud-init для развертывания в облаках (Яндекс.Облако, VK Cloud).

  • Администрирование внутренней инфраструктуры (Git, тестовые стенды, продакшен-сервера).

Наш стек технологий:

  • Инфраструктура и ОС: Linux, Docker

  • Сети и коммуникации: traefik, WebSockets, почтовые протоколы (SMTP, IMAP), REST API

  • Базы данных и очереди: Postgres, Redis, RabbitMQ, Celery

  • CI/CD: GitLab, Ansible

  • Облака: Яндекс.Облако, VK Cloud, Selectel

  • Бэкенд: Python/Django (и немножко Go)

  • Мониторинг: Sentry

Мы ищем специалиста, который, обязательно имеет опыт:

  • Глубокого траблшутинга сложных распределенных систем — от сетей и ОС до БД и очередей сообщений.

  • Администрирования Linux-систем на продвинутом уровне.

  • Конфигурации реверс-прокси (nginx, haproxy, traefik, etc)

  • Настройки и траблшутинга почтовых серверов (postfix)

  • Настройки и поддержки CI/CD-процессов

  • Работы с одним из облачных провайдеров IaaS (Yandex Cloud, VK Cloud, Selectel или зарубежные аналоги).

  • Написания скриптов автоматизации на Bash / Python.

Обладает ключевыми качествами:

  • Системное мышление: Способен видеть проблему в целом, а не по отдельным симптомам.

  • Аналитический склад ума: Любит копаться в данных (логи, метрики), чтобы докопаться до сути проблемы.

  • Проактивность: Нацелен на то, чтобы предотвращать проблемы, а не просто реагировать на них.

  • Четкость коммуникации: Умеет ясно и структурировано излагать проблемы и предлагать решения разработчикам и руководству.

Что мы предлагаем:

  • Реальную возможность определять надежность продукта. Ваши решения напрямую повлияют на стабильность и удобство сопровождения Swarmica.

  • Работу в слаженной и заинтересованной в результате команде.

  • Ключевую роль в компании с прямым влиянием на удовлетворенность клиентов.

  • Гибкий график и удаленный формат работы.

Если вы читаете это не роботом, то напишите слово "антибот" в сопроводительном письме )


Поделиться:

Опубликована 5 дней назад

Похожие вакансии

200 000 - 350 000 ₽
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
  • Новосибирск
13 дней назад
до 500 000 ₽
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
  • Новосибирск
13 дней назад
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
  • Новосибирск
14 дней назад
130 000 - 200 000 ₽
  • Можно удаленно
  • Полный день
  • Опыт от 5 лет
  • Новосибирск
23 дня назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.