Data Engineer (Scala)

По договоренности


Ищем инженера по данным для участия в разработке системы, обрабатывающей информацию о продажах по всей России. Наша команда занимается созданием ETL-процессов и агрегатов для формирования витрин данных и отчетов для BI и конечных пользователей. Объем исходных данных в проекте огромен - несколько петабайт, сотни ETL-процессов работают над построением витрин, а ежедневно обрабатывается десятки-сотни терабайт информации. Если вы готовы принять вызов работы с такими масштабами данных, присоединяйтесь к нам!

Стек технологий: Scala, Apache Spark, ClickHouse, HDFS, Apache Airflow, PostgreSQL, Apache Kafka, Apache Hive, Apache Iceberg

Чем предстоит заниматься:

  • Построение, поддержка ETL-процессов и решение разнообразных бизнес-задач для обработки больших объёмов данных с использованием Spark+Scala
  • Оптимизация скорости обработки данных и потребления системных ресурсов
  • Поиск и устранение причин ошибок, аномалий в результирующих данных
  • Создание оптимальных SQL-запросов средней сложности для анализа больших объёмов данных по требованиям бизнеса

Что мы ожидаем от кандидата:

  • Владение Scala, Java или готовность оперативно освоить основы scala
  • Консольный минимум Linux
  • Опыт работы со Spark, уверенное понимание принципов работы и потенциальных проблем
  • Знание основ работы с БД, уверенное знание SQL

Будет плюсом:

  • Опыт работы с Scala Dataframe/Dataset API
  • Опыт построения и оркестрации ETL-процессов для обработки Big Data
  • Опыт оптимизации spark-запросов и настройки потребляемых ресурсов
  • Углублённое понимание принципов работы и конфигурационных параметров Spark
  • Опыт работы с Zepellin или Jupiter
  • Опыт работы с ClickHouse или иными NoSQL
  • Опыт работы с Apache Airflow
  • Знание Hadoop/HDFS, работа с Parquet-файлами, работа с hive
  • Умение работать с GitLab CI
  • Знание Bash достаточное, чтобы внести исправления в скрипты
  • Минимальные знания Python
  • Английский на уровне B1 и выше

Мы предлагаем следующие условия:

  • Работу в динамичной международной команде
  • Участие в иностранных и российских проектах
  • Оформление по ТК РФ, 100% оплата больничного и отпуска
  • ДМС со стоматологией
  • Необходимую для работы технику
  • Корпоративные обучающие программы
  • Широкие возможности для самореализации, профессионального и карьерного роста
  • Демократичный подход к процессам и плавающее начало рабочего дня.

    В сопроводительном письме укажите:
    1. Готовы ли разрабатывать на spark+scala?
    2. Ориентировочно какое количество ETL реализовано и какой сложности?
    3. Какой объём данных обрабатывался в рамках одной ETL максимально?
    4. Есть ли у вас опыт оптимизации потребления ресурсов spark-приложениями, особенно на yarn-кластере?
    5. Где находитесь территориально на данный момент?

Поделиться:

Опубликована 9 часов назад

Похожие вакансии

Вакансии быстро закрываются — подпишитесь на наш канал в MAX сейчас, чтобы видеть их первыми.
Подписаться в MAX
... направления ИТ-экспертизы: построение высоконагруженных систем, прикладная часть Machine Learning и Data ... работы с Kubernetes проектами; опыт работы с Java; практический опыт участия в проектах по созданию DWH, Data ... Наш стек: ClickHouse, Pythоn, SQL, AirFlow, Spark, Apache Kafka, Yandex Cloud, Big Data, Kubernetes, ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Петрович-ТехПетрович-Тех
  • Санкт-Петербург
день назад
... разрабатываем программное обеспечение и IT-решения в сферах Finance, Healthcare, eCommerce, IoT, Media, Big Data ... опыт работы в роли Data Engineer от 3-х лет; опыт работы в роли Tech Lead/Team Lead от 1-го года; опыт ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Санкт-Петербург
9 часов назад
Мы приглашаем на работу Data engineer в направление КХД и BI центра компетенции по управлению данными ... хранилища данных создавать новые и поддерживать реализованные витрины реализовывать Best practice процессы data ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании АЛРОСААЛРОСА
  • Санкт-Петербург
5 дней назад
Главные потребители наших данных – data scientist’ы, которые занимаются поиском закономерностей, значимых ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании KoronatechKoronatech
  • Санкт-Петербург
11 дней назад
... развивающая проекты и решения в сфере медиабаинга и партнёрского маркетинга Мы растем, поэтому мы в поисках Data ... Engineer в отдел BI-аналитики. ... Наши ожидания: От 2-х лет опыта работы Data Engineer; Хорошее знание Clickhouse, Postgres, Python, Pandas ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании LuckyGroupLuckyGroup
  • Санкт-Петербург
20 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.