SRE-специалист (Телеком)
По договоренности
Команда занимается развитием и поддержкой инфраструктуры продукта и одним из важных направлений является обеспечение надежности, производительности и отказоустойчивости компонентов продукта. Для этих целей в продукт были внедрены средства мониторинга, сбора логов и трейсов, а также визуализация и алертинг, которые позволяют отслеживать внутреннее состояние компонентов продукта и сигнализизировать в случае возникновения аномальных ситуаций. В данном направлении команда непосредственно занимается деплоем, оптимизацией компонентов observability, созданием дашбордов, алертов, построением отказоустойчивой инфраструктуры в области observability.
Чем предстоит заниматься:
- Повышать надежность, наблюдаемость компонентов продукта;
- Автоматизация работ по развертыванию и обновлению компонентов, связанных с наблюдаемостью системы;
- Проектировать, внедрять и поддерживать метрики, alerts, dashboards в актуальном состоянии;
- Проектировать и внедрять отказоустойчивую архитектуру компонентов продукта;
- Взаимодействовать с командой разработчиков, участвовать в процессах ревью продуктовых требований.
Что мы требуем от будущего члена команды:
- Опыт работы с операционной системой Linux на уровне администратора;
- Опыт работы с системами мониторинга Prometheus/VictoriaMetrics, визуализации данных с помощью Grafana;
- Опыт работы с системами сбора и хранения логов/трейсов;
- Опыт работы с Ansible;
- Знание одного или нескольких скриптовых языков Python/Bash;
- Понимание принципов построения отказоустойчивых систем.
Будет плюсом:
- Опыт работы с базой данных Clickhouse;
- Опыт работы с OpenTelemetry Collector.
Опубликована 8 часов назад
Похожие вакансии
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Подработка
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва