Site Reliability Engineer в VK WorkSpace
По договоренности
Задачи
- Участие в проектировании и внедрении практик управления инфраструктурой
- Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения
- Выполнение плановых регламентных работ
- Участие в on-call дежурствах, в инцидент-менеджменте
- L3 поддержка пользователей
- Подготовка технической и эксплуатационной документации
Требования
- Опыт работы системным администратором или SRE от трёх лет
- Опыт работы с операционными системами семейства Linux на уровне администратора (RHEL, CentOS, RedOS)
- Опыт работы с инструментами мониторинга (Prometheus, Grafana, ELK stack)
- Опыт работы с инструментами автоматизации (Ansible, Terraform)
- Опыт работы с технологиями контейнеризации (Kubernetes, Docker)
Опубликована 22 дня назад
Похожие вакансии
Вакансии быстро закрываются — подпишитесь на наш канал в MAX сейчас, чтобы видеть их первыми.
Подписаться в MAX Команда Infrastructure Platform предоставляет внутренние инструменты и облачные сервисы как услугу для всех продуктовых команд компании, обеспечивая масштабируемую и надежную основу для разработки. Мы не просто "чиним алерты" — мы проектируем платфор...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
18 дней назад
Задачи Обслуживание production-сервисов S3 Участие в проектировании и внедрении практик управления инфраструктурой Разработка и поддержка автоматизированных систем для реагирования на инциденты, мониторинга и оповещения Выполнение плановых регламентн...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
18 дней назад
Чем предстоит заниматься: Поддержка работоспособности систем страховой платформы. Выкатка релизов. Развёртывание и поддержка prod/stage/dev сред. Написание Terraform модулей для развёртывания инфраструктуры. Написание Ansible ролей. Обслуживание Kube...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
22 дня назад
Что предстоит делать: Обеспечение мониторинга и стабильной работы сервисов (облачная система управления отелями Sonata PMS). Реакция на инциденты и участие в их расследовании. Автоматизация процессов развертывания и эксплуатации. Улучшение отказоусто...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
19 дней назад
Обязанности: разработка и автоматизация пайплайнов репликации данных с Qlik Replicate (CDC, стриминг в Kafka/Redshift); настройка источников (SQL, NoSQL) и целей (data warehouse, облако); мониторинг, оптимизация производительности и миграция данных б...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад