Middle+ Site Reliability Engineer (SRE)

По договоренности

Москва

Третьяковская
Новокузнецкая
Третьяковская

AI-First Manifest: Мы ценим время и эффективность. Это описание на 80% спроектировано ИИ на базе реального брифинга нашего CTO. Мы не тратим часы на копирайтинг там, где нейросеть справляется за секунды, потому что верим: всё, что может быть автоматизировано — должно быть автоматизировано. Если вы разделяете этот подход к ресурсам — нам по пути.

Sibedge — аккредитованная IT-компания, уже 19 лет мы занимаемся заказной разработкой ПО. Сейчас мы в поиске Middle+ Site Reliability Engineer для работы над крупными ИТ-проектами одного из ведущих банков России.

Ваша миссия: обеспечить надежность, отказоустойчивость и производительность высоконагруженных систем, которые ежедневно обслуживают аудиторию более 30 млн пользователей.

В зоне вашей ответственности будут ключевые цифровые продукты банка. Это проекты, где важны безупречная стабильность и способность инфраструктуры выдерживать огромные нагрузки.

Вам будет интересно в нашей команде, если вы:

считаете, что обеспечение доступности сервиса для миллионов пользователей — это профессиональный вызов, а не просто обязанность;
видите в каждом инциденте возможность улучшить систему, а не просто «поставить галочку»;
предпочитаете тратить время на создание надежных систем и автоматизацию, а не на ручное «тушение пожаров»;
готовы брать на себя ответственность за инфраструктурные решения, которые напрямую влияют на бизнес-результаты.

Стек:

Linux;
Java, Python, Golang;
Docker, Kubernetes. Опыт работы с другими оркестраторами будет плюсом;
PostgreSQL, ClickHouse, Redis, Kafka, Spark, Elasticsearch;
Prometheus, Grafana, ELK-стек;
Terraform, Ansible;

Чем предстоит заниматься:

cоздание и поддержка отказоустойчивой, масштабируемой инфраструктуры;
завершение миграции на Kubernetes;
развитие observability: мониторинг, алертинг, логирование и бизнес-метрики;
автоматизация CI/CD процессов для ускорения и повышения качества релизов;
разработка и поддержка инструментов для автоматизации операционных задач (скрипты, утилиты);
участие в расследовании инцидентов и повышении стабильности сервисов;
обеспечение целевых показателей доступности (SLO).

Что мы ожидаем от кандидата:

опыт администрирования Linux-серверов;
навыки программирования на Python, Java, Golang или др.;
понимание CI/CD-пайплайнов и практический опыт их настройки;
опыт работы с Prometheus, Grafana и ELK;
знание принципов виртуализации, контейнеризации и оркестрации;
опыт работы с микросервисной архитектурой и участия в устранении инцидентов.

Что вам может быть интересно о Sibedge:

Мы предоставляем официальное оформление и "белую" заработную плату.
Лояльно относимся к гибкому графику работы, если он не снижает эффективность команды.
Ежегодный Performance Review позволяет видеть свой вклад и строить траекторию развития.
В компании принят принцип win-win: если чего-то не хватает — обсуждаем и находим решение.

⚡ Откликнуться на hh.ru

Адрес: Россия, Москва, Зубовский бульвар, 17

Показать на большой карте

Опубликована месяц назад

Site Reliability Engineer в команду информационной безопасности

Наша команда SOC блока ИБ VK отвечает за обеспечение безопасности и эффективной работы инфраструктуры компании. Мы внедряем и развиваем современные решения для сбора, анализа и визуализации логов, чтобы быстро выявлять и реагировать на инциденты, под...

Можно удаленно
Полный день
Опыт от 3 лет

Москва

15 дней назад

⚡ Откликнуться на hh.ru

Инфраструктурный инженер (Infrastructure Software Engineer/Site Reliability Engineering)

Что предстоит делать: Обеспечение мониторинга и стабильной работы сервисов (облачная система управления отелями Sonata PMS). Реакция на инциденты и участие в их расследовании. Автоматизация процессов развертывания и эксплуатации. Улучшение отказоусто...