Site Reliability Engineer, SRE – Database Reliability (надёжность баз данных)

По договоренности

Москва

Динамо
Белорусская
Маяковская

Медийные Технологии - молодая и амбициозная компания, команда единомышленников, которая создает программные продукты на базе искусственного интеллекта для автоматизации и повышения эффективности бизнес-процессов.

На текущий момент мы усиливаем нашу команду и ищем Middle SRE – Database Reliability (надёжность баз данных)

Задачи:

Проведение аудита текущей архитектуры баз данных: анализ производительности, узких мест, схемы репликации и стратегий резервного копирования;
Поддержка и оптимизация MySQL/MariaDB кластеров: настройка multi-master репликации, мониторинг lag-а между дата-центрами, обеспечение консистентности данных;
Управление шардингом и партиционированием данных MediaWiki: анализ распределения нагрузки по шардам, планирование масштабирования, реализация решардинга;
Разработка и тестирование стратегий резервного копирования: настройка автоматических бэкапов, валидация восстановления, управление retention policy;
Оптимизация производительности запросов: анализ медленных запросов MediaWiki, создание и поддержка индексов, работа с query optimization;
Мониторинг здоровья баз данных: настройка алертов на критические метрики, анализ тенденций роста данных, планирование capacity;
Обеспечение высокой доступности: настройка автоматического failover между дата-центрами, минимизация downtime при плановых работах;
Поддержка специфичных для MediaWiki таблиц: оптимизация хранения истории правок, управление таблицами страниц и пользователей, архивирование старых данных;
Работа с поисковой инфраструктурой: поддержка синхронизации данных с Elasticsearch/CirrusSearch, оптимизация индексации контента;
Участие в дежурствах (OnCall): быстрое реагирование на проблемы с БД, диагностика блокировок, восстановление после сбоев, координация с командами разработки;
Планирование и выполнение миграций схемы данных: безопасные ALTER операции на больших таблицах, zero-downtime deployments;
Документирование архитектуры БД, процедур восстановления и best practices для команды разработки.

Требования:

Опыт администрирования MySQL/MariaDB в высоконагруженных системах с объемом данных 100TB+;
Глубокое понимание репликации MySQL: master-master, master-slave, GTID-based репликация, устранение конфликтов репликации;
Практический опыт работы с шардингом и партиционированием: горизонтальное масштабирование, стратегии распределения данных, cross-shard запросы;
Экспертные знания оптимизации производительности MySQL: анализ execution plans, создание composite индексов, оптимизация JOIN операций;
Опыт планирования и выполнения schema migrations на production системах: pt-online-schema-change, gh-ost, или аналогичные инструменты;
Понимание специфики MediaWiki схемы данных: структура таблиц page, revision, text, user, оптимизация запросов для wiki-контента;
Практический опыт настройки резервного копирования: Percona XtraBackup, mysqldump для больших БД, point-in-time recovery;
Знание принципов обеспечения высокой доступности: ProxySQL, HAProxy для балансировки нагрузки на БД, automated failover решения;
Опыт мониторинга баз данных: настройка метрик в Prometheus, анализ performance_schema, работа с Percona Monitoring and Management;
Понимание принципов ACID, изоляции транзакций, deadlock detection и resolution в высоконагруженных системах;
Навыки capacity planning: прогнозирование роста данных, планирование upgrade hardware, оптимизация использования дискового пространства;
Опыт работы с географически распределенными БД: cross-datacenter репликация, latency optimization, conflict resolution;
Готовность к регулярным дежурствам и работе в условиях высокой ответственности за сохранность и доступность данных MediaWiki;
Умение читать и анализировать код MediaWiki для понимания паттернов использования БД и оптимизации под специфику приложения;
Навыки автоматизации: написание скриптов (Python/Bash) для мониторинга, бэкапов, автоматических проверок целостности данных;
Понимание принципов работы поисковых систем: синхронизация данных с Elasticsearch, оптимизация индексации для поиска по многоязычному контенту;
Опыт работы с системами управления конфигурацией: автоматизация настройки MySQL через Ansible, version control конфигураций;
Сильные навыки troubleshooting: умение быстро диагностировать проблемы производительности, блокировки, проблемы репликации под давлением времени.

Условия:

Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
Полная занятость, удаленный или гибридный формат работы
Пятидневная рабочая неделя, с пн-пт.
Дружный и неравнодушный коллектив профессионалов.
Программа ДМС после успешного прохождения испытательного срока.

⚡ Откликнуться на hh.ru

Адрес: Россия, Москва, Ленинградский проспект, 15с14

Показать на большой карте

Опубликована 15 часов назад

Инфраструктурный инженер (Infrastructure Software Engineer/Site Reliability Engineering)

Что предстоит делать: Обеспечение мониторинга и стабильной работы сервисов (облачная система управления отелями Sonata PMS). Реакция на инциденты и участие в их расследовании. Автоматизация процессов развертывания и эксплуатации. Улучшение отказоусто...

Можно удаленно
Полный день
Опыт от 3 лет

HRS

Москва

18 часов назад

⚡ Откликнуться на hh.ru

DevOps-инженер

Чем предстоит заниматься: Сопровождение и развитие процессов CI/CD Настройка и поддержка контейнерных и оркестрационных систем (Docker, Kubernetes и др.) Участие в анализе и устранении инцидентов, влияющих на безопасность и стабильность систем Автома...

Можно удаленно
Полный день
Опыт от 3 лет

Альфа-Банк

Москва

9 дней назад

⚡ Откликнуться на hh.ru

SRE-инженер

до 350 000 ₽

Рыночная зарплата

Привет! Мы продолжаем укреплять нашу команду и ищем сильного Site Reliability Engineer (SRE) с опытом работы от 3 лет. Наша цель — найти сильного специалиста, готового сфокусироваться на инженерной части и поиске оптимальных решений по инфраструктуре...

Можно удаленно
Полный день
Опыт от 3 лет

Деньги Вперед

Москва

8 дней назад

⚡ Откликнуться на hh.ru

Site Reliability Engineer, SRE – Database Reliability (надёжность баз данных)

По договоренности

Похожие вакансии

Инфраструктурный инженер (Infrastructure Software Engineer/Site Reliability Engineering)

DevOps-инженер

SRE-инженер

Вакансия в подборках

Похожие вакансии