DWH аналитик / Инженер данных

По договоренности


О компании: «SJ GLOBAL» (аутстфф - формат сотрудничества) — это более 10 лет успешной работы в сфере разработки мобильных приложений. Мы создали более 100 приложений для различных отраслей, включая общепит, логистику, производство и стартапы. Мы — победители Федерального конкурса "Опора для IT" и организаторы хакатонов. Присоединяйтесь к нам, чтобы расти и развиваться вместе с командой профессионалов!

Чем предстоит заниматься ежедневно

1. Аналитика и проектирование:

  • Разбор в банковской предметной области и IT-ландшафте (источники данных, мастер-системы).
  • Взаимодействие с заказчиками и смежными командами для сбора и формализации требований.
  • Проектирование архитектуры потоков данных для Apache-стека (Spark, NiFi, Airflow) и их интеграции с Kafka и BI-системами.
  • Создание проектной документации (AS-IS, TO-BE), ER-диаграмм, технических спецификаций, тест-кейсов и рабочих инструкций.


2. Разработка и оптимизация ETL/ELT:

  • Разработка ETL-пайплайнов на Apache Spark (Java-стек) для обработки миллиардов строк.
  • Проектирование и разработка алгоритмов загрузки и обработки данных из HDFS (Parquets) через Hive в Greenplum и ClickHouse.
  • Разработка витрин данных в Greenplum и ClickHouse для последующего использования в BI (Apache Superset).
  • Оптимизация ETL-процессов и SQL-кода для highload-среды (батчинг, ретраи, контроль SLA).
  • Написание и анализ сложного SQL кода, составляющего ETL-процессы.


3. Контроль качества данных и процессов:

  • Анализ качества данных, соответствия форматно-логическому контролю и бизнес-ограничениям.
  • Участие в построении мониторинга качества данных, валидаций и алертов.
  • Участие в тестировании (составление тест-сценариев, анализ корректности расчетных данных) и приемочных испытаниях релизов.
  • Отслеживание метрик ETL-процессов с использованием Grafana/Prometheus.


4. Координация и регламентация:

  • Участие в оценке затрат, планировании работ команды и координации задач.
  • Регламентирование регулярных процессов и процедур группы.
  • Взаимодействие с BI-разработчиками и DevOps для обеспечения своевременной доставки данных.

Обязательные технические навыки

  • Высшее техническое образование (ИТ или смежная область).
  • Опыт работы в роли системного аналитика, аналитика БД или Data Engineer от 3 лет.
  • Сильный SQL (PostgreSQL/Greenplum): CTE, оконные функции, сложные джоины, оптимизация запросов, анализ планов выполнения.
  • Опыт работы в проектах по внедрению или развитию BI-решений и хранилищ данных (DWH).
  • Опыт работы с Apache Spark от 1 года (включая готовность осваивать Java-стек для Spark).
  • Опыт работы с Big Data СУБД: Greenplum, ClickHouse, а также Hadoop (HDFS, Hive).
  • Опыт проектирования архитектуры и потоков данных для ETL/ELT процессов.
  • Навыки сбора, формализации требований и создания проектной документации (AS-IS, TO-BE, технические спецификации).
  • Умение анализировать и оптимизировать ETL-процессы, код и данные (качество данных, дедупликация, валидация).


Желательные (Nice to Have / Будет плюсом):

  • Опыт в проектах миграции ETL-систем на Apache-стек (Spark, NiFi, Airflow).
  • Опыт построения сквозной аналитики и атрибуции (UTM, ClientID).
  • Опыт интеграций (REST API, webhooks) с CRM (Bitrix24), 1С и другими системами.
  • Знание Apache Airflow для оркестрации.
  • Опыт работы с BI-инструментами: Apache Superset, Qlik Sense, Power BI (публикация, моделирование, права).
  • Навыки работы с Grafana, Prometheus, Kibana для мониторинга ETL-процессов.
  • Базовые навыки программирования на Python.
  • Понимание принципов контейнеризации (Docker, Kubernetes, OpenShift).
  • Опыт работы с инструментами разработки: Bitbucket, Jira, Confluence.

Поделиться:

Опубликована 18 часов назад

Вакансия в подборках

  1. Аналитик
  2. Инженер ТО
  3. Инженер
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.