Инженер данных DWH в Авто.ру

По договоренности

  • Марксистская
  • Третьяковская
  • Маяковская

Наша команда разработки аналитической инфраструктуры занимается полным циклом обработки данных в компании. Цикл включает сбор, хранение, валидацию и комбинирование всех знаний о бизнесе. Ключевое направление нашей деятельности — аналитическое хранилище данных (DWH), которое мы строим для нужд бизнес-подразделений. Наши пользователи — это и продуктовые команды, которым нужна регулярная отчётность для принятия решений, и эксперты в области глубокого анализа данных.

Технологически ядро хранилища построено на системах хранения данных Yandex Tables (кластер MapReduce собственной разработки), СlickHouse и PostgreSQL. Для разработки, оркестрации и мониторинга ETL-процессов используется собственный фреймворк, который разработан внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются различные методологии проектирования хранилищ данных: Lambda-архитектура, Data Lake, Data Vault.


Задачи:

Проектирование структуры

Вы будете проектировать структуру хранения и обработки данных для новой версии DWH Авто.ру, которая будет создаваться с нуля.

Сопровождение процессов наполнения DWH Авто.ру

Вам предстоит сопровождать текущие процессы наполнения DWH Авто.ру, заниматься созданием новых ETL-процессов в условиях изменения стека в сторону опенсорса.

Оптимизация процессов поставки данных там, где это требуется

При необходимости вы будете погружаться в специфику данных одной или нескольких прикладных бизнес-областей, чтобы как эксперт помогать выявлять критичные аномалии в данных.

Мы ждем, что вы:

  • Занимались промышленной разработкой на Python
  • Проектировали DWH: слои, модели хранения данных, ETL/ELT-процессы
  • Разрабатывали ETL-процессы с использованием Apache Airflow для DWH на основе Greenplum
  • Настраивали поставки данных по API
  • Разбираетесь в SQL на уровне эксперта
  • Понимаете устройство и архитектуру реляционных и нереляционных баз данных
  • Понимаете принципы работы технологий распределённой обработки данных: Hadoop, MapReduce и MPP
  • Знаете основные алгоритмы и структуры данных (особенно те, которые используются в работе с большими данными)

Будет плюсом:

  • Работали с системами YT (YTsaurus), ClickHouse, а также с инструментами оркестрации и выполнения процессов от Яндекса
  • Работали с брокерами сообщений Kafka, RabbitMQ и т. д.
  • Умеете работать в командной строке *nix-систем: Linux и macOS

Адрес: Россия, Москва
Показать на большой карте

Поделиться:

Опубликована 21 день назад

Похожие вакансии

Нужны деньги до новой зарплаты? Кредитка Platinum от Т-Банка — до 1 000 000 ₽, 55 дней без %. Доставим сегодня бесплатно.
Получить карту
... ; Работа с данными: получение данных из ИС компании, проверка их качества, очистка, преобразование, документирование ... источников; Документирование процедур по анализу данных; Взаимодействие с владельцами данных, получение ... данных, согласование требований, консультации по выявленным несоответствиям в ходе проверок внутреннего ...
  • Полный день
  • Опыт от 3 лет
Логотип компании Группа «Интер РАО»Группа «Интер РАО»
  • Москва
21 час назад
Опыт работы с ColumnStore БД ClickHouse Разработка аналитических хранилищ и витрин данных для бизнес-пользователей ... Работа c большими объёмами данных (сотни Тб в несжатом виде), HighLoad системами: подходы, практики ...
  • Полный день
  • Опыт от 3 лет
Логотип компании СБЕРСБЕР
  • Москва
9 дней назад
Мы занимаемся организацией жизненного цикла данных - от поставки в аналитическое хранилище до охлаждения ... Проектируем и реализуем архитектуру хранилища, развиваем процессы контроля качества и защиты данных. ... Являемся амбассадорами культуры работы с данными и хороших инженерных практик в целом.
  • Полный день
  • Опыт от 3 лет
Логотип компании БЮРО 1440БЮРО 1440
  • Москва
14 дней назад
... , их валидация на исторических данных, подбор оптимальных гиперпараметров. • Интеграция разработанных ... Знание методов обработки данных (подготовки датасетов для обучения), метрик оценки качества. ... . • Опыт аналитической работы с данными, понимание методов математической статистики.
  • Полный день
  • Опыт от 3 лет
Логотип компании Альфа-БанкАльфа-Банк
  • Москва
15 дней назад
Проектирование и разработка ETL/ELT-паплайнов для обработки структурированных и неструктурированных данных ... (тексты, изображения, видео); Организация и поддержка хранилища данных, включая объективные, реляционные ... Требования: Высшее образование (математика, компьютерные науки, физика, инженерия и смежные области); ...
  • Полный день
  • Опыт от 3 лет
Логотип компании ГРЧЦ, ФГУПГРЧЦ, ФГУП
  • Москва
13 дней назад
ELT‑потоков (Airflow, dbt); Управление метаданными: создание data catalog, документирование lineage данных ... ; Обеспечение Data Quality: валидация данных на всех этапах, настройка алертов при аномалиях; VictoriaMetrics ... с 1С, работа с 1С OData, REST, SQL; Опыт интеграций с REST источниками данных (сайты, сервисы), с SQL ...
  • Полный день
  • Опыт от 3 лет
Логотип компании МосквариумМосквариум
  • Москва
21 день назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.