- Работа в Москве
- IT, интернет, связь, телеком
- Data engineer
- Team Lead Data Engineer
Team Lead Data Engineer
По договоренности
- Сокол
- Аэропорт
- Красный Балтиец
Газпром ИД (ГИД) – технологичная молодая компания в структуре холдинга. В ГИД-Дате мы создаем различные data-продукты: рекомендательные и поисковые системы, сервисы аналитики и визуализации данных и многое другое.
В данный момент мы в поиске Тимлида на проект DataNova — это ядро экосистемы Газпрома, обеспечивающее сбор, обработку и монетизацию клиентских данных (Единый Профиль, каталог данных, сегментация, ML-витрины). Масштаб — 10+ ТБ прироста в день, тысячи событий в секунду, десятки интеграций с дочерними обществами и внешними партнёрами (ГПБ, Premier, Rutube, МРГ и другие).
Роль лида
Вы будете формировать техническое видение data-платформы, строить и совершенствовать пайплайны, руководить инженерами и являться главным экспертом по надёжности, производительности и качеству данных.
Зоны ответственности:
Архитектура и платформа
- Проектирование и эволюция data-инфраструктуры (ClickHouse, Kafka, Spark/Flink, S3/MinIO, Airflow).
- Разработка высоконагруженных ETL/ELT-пайплайнов batch и near-real-time.
- Внедрение стандартизированной схемы метаданных в OpenMetadata и контроль data lineage.
- Оптимизация хранилищ: партиционирование, сжатие, настройка индексов и кластеров.
Инженерные процессы
- Выстраивание CI/CD для data-решений (GitLab, Docker, Helm, ArgoCD).
- Консультационное сопровождение команд инфраструктуры Kubernetes (кластер Dev/Prod, service mesh, auto-scaling).
- Настройка мониторинга и алертинга (Prometheus, Grafana, VictorOps).
Управление командой
- Планирование roadmap’ов, оценка задач, ревью кода, наставничество.
- Развитие компетенций инженеров: Spark/Flink performance, Cloud object storage, best practices SQL.
- Взаимодействие с продакт-менеджерами, аналитиками и архитекторами бизнес-доменов.
Интеграции и стандарты данных
- Подключение новых источников (CRM, DWH, API, файловые стоки), унификация форматов (Parquet, Avro, JSON).
- Утверждение контрактов доставки данных (schema registry, versioning, SLA пересылки).
- Контроль качества: тесты на целостность, deduplication, правила валидации.
Безопасность и соответствие ИБ
- Проектирование защищённых каналов передачи (VPN, SFTP, TLS Kafka).
- Соблюдение требований ПДн, мультисогласий и внутренних регламентов ИБ.
- Работа с аудитами и стресс-тестами на отказоустойчивость.
Техстек:
- Языки: Python, SQL, Scala.
- Big Data: Apache Spark, Apache Flink.
- Стриминг: Apache Kafka.
- Хранилища: ClickHouse, PostgreSQL, S3/MinIO.
- Оркестрация: Apache Airflow (DAGs on Python).
- Инфраструктура: Kubernetes, Docker, Helm, GitLab CI/CD.
- Инструменты: Git, Prometheus, Grafana.
Наши ожидания:
- 5+ лет в data-инженерии, 2+ года в роли тим/тех-лида.
- Реализованные решения с нагрузкой 1 ТБ+ в неделю или 10 000+ событий/сек.
- Опыт дизайна отказоустойчивых архитектур и оптимизации стоимости хранения/вычислений.
- Глубокие знания распределённых вычислений (shuffle, partitioning, checkpointing).
- Практика подготовки техдоков, диаграмм архитектуры, проведения системных ревью.
Будет плюсом:
- Опыт миграции on-prem решений в облака (Yandex Cloud, Sber Cloud).
- Знание Apache Iceberg/Delta Lake и подходов Data Mesh.
- Навыки работы с BI-инструментами (Superset, Tableau) и ML-фреймворками (MLflow).
Что мы предлагаем:
- Гибридный график: офис (Москва, Ленинградский пр-кт 72 к3, БЦ «Алкон») + удалёнка.
- Зарплата по рынку + квартальные премии – обсуждаются индивидуально.
- Команда высокого уровня, доступ к уникальным сервисам Газпрома и партнёров.
- Возможность влиять на стратегию платформы и масштабировать решения на десятки миллионов пользователей.
Опубликована 6 дней назад