Data Platform Engineer (NRT/Spark)

По договоренности

  • Площадь Ильича
  • Марксистская
  • Третьяковская

Описание проекта

Финтех в Яндексе — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов.

Это молодое, смелое направление, которое уже доказало свою пользу и продолжает активно расти.

Ключевые продукты Финтеха Яндекса: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, Кредитные продукты, Яндекс ID, Яндекс Про и многое другое

Это сложная инженерная и аналитическая среда, где пересекаются хайлоад, большие данные и жёсткие требования регуляторов.

Здесь ты столкнёшься с:

  • Высокими нагрузками: Миллионы транзакций, таблицы с объёмом далеко за 1 млн записей
  • Распределёнными данными: Используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации
  • Архитектурой DWH: Строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы
  • Безопасностью и интеграцией: Проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системам

В команду платформенных данных требуется специалист по Apache Spark с глубоким понимаем внутренней архитектуры фреймворка. Основная задача - развитие платформы для обработки NRT- данных (near real time), повышение отказоуйсточивости и производительности потоковых процессов.

Какие задачи вас ждут:

  • Проектирование и развитие облачной data-платформы
    Оптимизация текущей инфраструктуры и проектирование новых компонентов платформы с использованием облачных технологий Yandex Cloud. Готовимся к кратному росту объемов обрабатываемых данных.

  • Миграция с GreenPlum на Trino / S3
    Переход с дорогостоящего в поддержке и эксплуатации Greenplum на доступ к данным в S3 через Trino. Используем современные технологии для быстрого доступа к данным в основном хранилище.

  • Построение единой observability-платформы для таблиц DWH
    Создание единой точки входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования. Обеспечиваем наблюдаемость и контролируемость процессов.

  • Ускорение текущих процессов поставки данных
    Оптимизация существующих и построение новых надежных процессов поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрение Spark Streaming или аналогичных решений для обеспечения near-real-time обновления данных. Ускоряем обработку растущих потоков данных.

  • Автоматизация ручных процессов
    Построение CI/CD пайплайнов для автоматизации процессов развертывания инфраструктуры, построения новых интеграций. Отадем рутину автоматике.

  • Повышение безопасности доступа к данным
    Выстраивание процессов автоматической выдачи и контроля доступов во всех системах, включая доступ к инфраструктуре, данным и аудит действий пользователей. Обеспечиваем безопасный и контролируемый доступ к банковским данным.

  • Построение тестовых окружений
    Создание изолированных сред разработки, тестирования и предпрод с автоматизированными процессами тестирования. Выстраиваем среду безопасной разработки и повышаем надежность разрабатываемых решений

  • Развитие фреймворков обработки данных
    Развитие внутренних фреймворков для загрузки, трансформации и контроля качества данных. Делаем low-code решения для ускорения разработки.

Ключевые требования

  • Опыт коммерческой разработки от 4 лет
  • Глубокое понимание устройства БД: оптимизация запросов, планы выполнения, партиционирование, шардирование и индексы
  • Владение разными типами СУБД: PostgreSQL, Oracle, MongoDB, Greenplum
  • Реальный опыт с CDC (Change Data Capture) — понимание принципов и умение реализовывать пайплайны
  • Уверенная работа с S3-совместимыми хранилищами

Стек для ежедневных задач:

  • Языки: Python (основной для разработки пайплайнов и скриптов)
  • Оркестрация: Apache Airflow (разработка пайплайнов)
  • Обработка данных: Apache Spark (Spark SQL, DataFrame)
  • Запросы: Trino (работа с данными через движок)

Адрес: Россия, Москва, Садовническая улица, 82с2
Показать на большой карте

Поделиться:

Опубликована 6 часов назад

Похожие вакансии

Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Engineer ОФИС В МСК ФОРМАТ РАБОТЫ ...
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
6 часов назад
до 210 000 ₽
Выше средней на 16%
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Analyst/Engineer.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
6 часов назад
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Engineer ФУНКЦИОНАЛЬНЫЕ ОБЯЗАННОСТИ ...
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
7 часов назад
... взаимодействие с Data Analyst для глубокого понимания бизнес-контекста и feature engineering, с Data Engineer ... — по вопросам пайплайнов данных, с AI Engineer — для вывода результатов ML моделей в AI решения, использования ... Мы ждем от кандидата (требования): Высшее образование в IT/математике/data science опыт 2–4 года в ML-проектах ...
  • Полный день
  • Опыт от 3 лет
Логотип компании АО «ОТП Банк» (JSC «OTP Bank»)АО «ОТП Банк» (JSC «OTP Bank»)
  • Москва
6 дней назад
Aston — аккредитованная аутсорсинговая IT-компания, работающая с 2007 года. ... Мы разрабатываем программное обеспечение и IT-решения в сферах Finance, Healthcare, eCommerce, IoT, Media ... Предлагаем присоединиться в роли DevOps Engineer и работать над проектом заказчика.
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Москва
8 дней назад
до 210 000 ₽
Выше средней на 16%
Активно действует на рынке IT России с 1997 года, входит в ТОП-400 крупнейших российских компаний, ТОП ... -10 крупнейших IT-компаний России. ... В связи с активным развитием проектов в компании открыта вакансия Data Engineer/Data аналитика.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
5 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.