Инженер данных DWH в Путешествия

По договоренности


Наша команда превращает терабайты данных в понятные и полезные инсайты, которые используют аналитики и сервис, помогающий миллионам людей путешествовать. Наш продукт растёт огромными темпами, и вместе с ним растут наши задачи, например развитие собственного DWH.

Хранилище у нас построено на системах хранения данных YTsaurus (кластер MapReduce собственной разработки) и СlickHouse. Для разработки, оркестрации и мониторинга ETL-процессов используется собственный фреймворк, созданный внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются различные методологии проектирования хранилищ данных: Lambda-архитектура, Data Lake, Data Vault.

Какие задачи вас ждут

Разработка, сопровождение и ревью ETL-процессов поставки данных
Вам предстоит создавать конвейеры для извлечения, трансформации и загрузки данных из различных источников, настраивать их расписание и мониторинг. Важно будет регулярно проверять и улучшать существующий код, оперативно исправлять возникающие ошибки, а также тщательно документировать все преобразования и потоки данных — как собственные, так и коллег, обеспечивая соответствие стандартам качества и производительности.

Проектирование структуры хранения данных в разных слоях хранилища
Вы будете определять оптимальные схемы организации данных для каждого слоя, учитывая требования к скорости запросов и объёму хранения. Задача включает разработку моделей данных, настройку партиционирования, индексации и сжатия для повышения производительности, а также согласование структур с командами аналитики и разработки и адаптацию схем при изменении бизнес процессов.

Выявление и оптимизация неэффективных участков в процессах поставки данных
Вам нужно будет анализировать время выполнения ETL задач, профилировать данные для обнаружения аномалий и избыточности, пересматривать алгоритмы трансформации для снижения нагрузки на систему.

Погружение в данные прикладных бизнес-областей и становление в них экспертом
Вы будете детально изучать бизнес процессы и ключевые метрики компании, разбираться в логике расчёта показателей и источниках их формирования.

Мы ждем, что вы

  • Проектировали DWH (слои, модели хранения данных, ETL-процессы)
  • Разрабатывали ETL-процессы на Apache Airflow или аналогах
  • Настраивали поставки данных по API
  • Разбираетесь в SQL на уровне эксперта
  • Пишете на одном из языков высокого уровня (Python, Go, Java и т. д.)
  • Понимаете устройство и архитектуру реляционных баз данных
  • Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными

Будет плюсом, если вы

  • Пользовались хотя бы одной MPP-СУБД (Greenplum, ClickHouse, Vertica, Teradata и т. д.)
  • Понимаете принципы работы технологий распределённой обработки данных (Hadoop, MapReduce и MPP)

Поделиться:

Опубликована месяц назад

Похожие вакансии

Мы занимаемся организацией жизненного цикла данных - от поставки в аналитическое хранилище до охлаждения ... Проектируем и реализуем архитектуру хранилища, развиваем процессы контроля качества и защиты данных. ... Являемся амбассадорами культуры работы с данными и хороших инженерных практик в целом.
  • Полный день
  • Опыт от 3 лет
Логотип компании БЮРО 1440БЮРО 1440
  • Москва
3 дня назад
Настройка и поддержка репликации данных.
  • Полный день
  • Опыт от 3 лет
Логотип компании СИГМАСИГМА
  • Москва
3 дня назад
Ozon Банк расширяется, поэтому мы ищем Дата инженера в команду платформы данных. ... обновлять актуальные данные и следить за их своевременным поступлением строить систему качества данных ... и алертинга Для нас важно, что вы: более 3 лет работаете на языке Python более 2 лет работаете дата-инженером ...
  • Полный день
  • Опыт от 3 лет
Логотип компании OzonOzon
  • Москва
3 дня назад
200 000 - 250 000 ₽
Выше средней на 40%
Динамично развивающаяся компания-интегратор ищет в свою команду инженера по направлению – сети передачи ... Участие в разработке технических решений по созданию и развитию сетей передачи данных. ... Практические навыки локализации неисправностей на оборудовании сетей передачи данных.
  • Полный день
  • Опыт от 3 лет
Логотип компании ДИСИ ИНЖИНИРИНГДИСИ ИНЖИНИРИНГ
  • Москва
4 дня назад
ELT‑потоков (Airflow, dbt); Управление метаданными: создание data catalog, документирование lineage данных ... ; Обеспечение Data Quality: валидация данных на всех этапах, настройка алертов при аномалиях; VictoriaMetrics ... с 1С, работа с 1С OData, REST, SQL; Опыт интеграций с REST источниками данных (сайты, сервисы), с SQL ...
  • Полный день
  • Опыт от 3 лет
Логотип компании МосквариумМосквариум
  • Москва
11 дней назад
Опыт коммуникации с прикладными аналитиками, архитекторами, инженерами данных, системными аналитиками ... Хорошее понимание концепций микросервисной архитектуры, озера данных, хранилища данных, витрин данных ... , нормализации данных.
  • Полный день
  • Опыт от 3 лет
Логотип компании НИИ ВосходНИИ Восход
  • Москва
7 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.