Data Engineer (направление качества пунктов выдачи)

По договоренности

  • Смоленская
  • Киевская
  • Парк Победы

В подгруппу инфраструктуры данных требуется инженер данных для выполнения задач по изменению и развитию инфраструктуры данных в соответствии с общими изменениями в компании, включая переход на собственную схему хранения данных.

Вам предстоит:

Построение и поддержка ETL/пайплайнов:

Разработка, оптимизация и мониторинг для гарантированной доставки данных.

Развитие сервисной модели для аналитиков:

Предоставление качественных, документированных и актуальных данных через витрины и инструменты автоматизации, сокращая время на рутинные запросы.

Повышение надежности и прозрачности:

Помощь во внедрении единых стандартов на тестирование, мониторинг и алертинг для всех data-процессов.

Технологический стек проекта:

Оркестрация: Apache Airflow. Обработка данных: SQL, Python (Pandas), Apache Spark (PySpark).

Аналитические СУБД: ClickHouse, Vertica, Trino

Инфраструктура и инструменты: Git, Docker, Hadoop (HDFS, Hive), Kafka. Язык программирования: Python (Pandas, requests, асинхронное программирование).

Мы ожидаем:

Знание SQL (CTE, оконные функции, оптимизация запросов).

Базовые навыки профилирования и оптимизации SQL-запросов (чтение explain plan, понимание индексов).

Понимание принципов построения ETL/ELT-пайплайнов и опыт работы с Apache Airflow.

Базовые знания Python для целей обработки данных (Pandas, PySpark). Опыт работы с Git.

Понимание концепций распределенных систем и работы с большими данными (архитектура Spark, Kafka, Hadoop).

Будет преимуществом:

Практический опыт работы с Apache Kafka. Знание специфики ClickHouse (движки таблиц, особенности кластерной работы).

Опыт работы с Vertica/Trino. Навыки работы с Docker и оркестраторами (Rancher/Kubernetes).

Понимание принципов работы gRPC.

Привычка к ведению документации, понимание принципов Data Catalog (что такое глоссарий, метаданные, lineage).


Адрес: Россия, Москва, Московский международный деловой центр Москва-Сити, многофункциональный комплекс Башня на Набережной
Показать на большой карте

Поделиться:

Опубликована 8 часов назад

Похожие вакансии

... готов осваивать промпт-инжиниринг — нам важно уметь эффективно «общаться» с моделями в контексте Big Data ...
  • Полный день
  • Опыт от 1 года
Логотип компании СБЕРСБЕР
  • Москва
10 часов назад
165 000 - 220 000 ₽
Выше средней на 28%
Платформа ОФД - продуктовая IT-компания, крупнейший в России оператор фискальных данных. Мы создаем полезные и удобные сервисы для предпринимателей, анализируем рынок российского ритейла на данных из магазинных чеков. Приглашаем в команду Дата инжене...
  • Полный день
  • Опыт от 1 года
Логотип компании Платформа ОФДПлатформа ОФД
  • Москва
9 часов назад
... источников в одно хранилище; Проверка корректности данных, отсеивание неполной или ошибочной информации (Data ... БУДЕТ ПЛЮСОМ: Опыт создания и эксплуатации систем проверки качества данных (Data Quality). ... Знание методологии Data Vault Знание облачных технологий.
  • Полный день
  • Опыт от 1 года
Логотип компании BetBoomBetBoom
  • Москва
6 дней назад
Мы — амбициозная команда, которая занимается развитием BI-отчетности, автоматизацией расчетов различных показателей по операционным рискам и подготовкой данных для ML моделей. Мы создаём инновационные продукты, которые повышают эффективность и прозра...
  • Полный день
  • Опыт от 1 года
Логотип компании СБЕРСБЕР
  • Москва
7 дней назад
Команда занимается исследованиями и разработкой регуляторных моделей по заказу Департамента рисков розничного бизнеса. Обязанности постановка задачи на сбор данных (для DE) и участие в подготовке данных для разработки моделей определение «длинного сп...
  • Полный день
  • Опыт от 1 года
Логотип компании СБЕРСБЕР
  • Москва
6 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.