Data Engineer (Kandinsky)

По договоренности


Kandinsky — линейка моделей для генерации изображений и видео по текстовому описанию. Наша команда занимается обучением и развитием модели, аналитикой и построением метрик её работы, специализируется на создании инновационных решений в области искусственного интеллекта и нейросетей. Мы разрабатываем модели, направленные на улучшение взаимодействия между человеком и AI, автоматизацию процессов анализа больших объемов данных, распознавание изображений и обработку естественного языка, а также создание креативных инструментов для автоматической генерации визуального контента высокого уровня.

Обязанности

  • проектирование и разработка ETL/ELT-пайплайнов для обработки изображений и видеоданных, как в экосистеме Apache Airflow, так и в формате автономных Python-скриптов.
  • автоматизация процессов загрузки, предобработки и анализа данных: загрузка изображений и видео, обработка полученных данных, определение технических артефактов (например, наличие чёрных полос), трансформация и подготовка данных под требуемые форматы.
  • проектирование и поддержка высоконагруженных пайплайнов с возможностью масштабирования на распределённую обработку.
  • разработка высоконагруженных процессов нарезки, сжатия и конвертации видеофайлов крупного размера с использованием оптимизированных инструментов (ffmpeg, multiprocessing, async-подходы)
  • реализация механизмов отслеживания состояния и истории данных: учёт уже обработанных файлов, планирование задач по догрузке, ведение служебных таблиц
  • поддержка платформы данных: создание и оптимизация DDL/DML-скриптов, настройка таблиц под аналитические и операционные нагрузки
  • подготовка датасетов по требованиям внутренних и внешних заказчиков, обеспечение качества и полноты данных
  • поддержка CI/CD-процессов и стандартизация кодовой базы в соответствии с инженерными практиками и паттернами проектирования.

Требования

  • веренный практический опыт разработки ETL-процессов с использованием Apache Airflow либо аналогичных систем оркестрации
  • опыт работы с S3 или совместимыми объектными хранилищами, понимание структуры и принципов организации data-lake
  • понимание принципов распределённой обработки данных и работы PySpark
  • уверенные навыки разработки на Python, включая использование асинхронных инструментов, многопроцессной обработки, работы с большими файлами и медиа-данными
  • опыт написания Bash-скриптов для автоматизации рутинных процессов.
  • глубокое понимание принципов проектирования чистой архитектуры, шаблонов проектирования и построения легко-поддерживаемых модульных систем
  • опыт работы с PostgreSQL и ClickHouse, навыки написания оптимизированных запросов и проектирования таблиц
  • опыт работы с Docker и Kubernetes, понимание контейнеризации пайплайнов данных.

Условия

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность быть соавтором НИРов и статей для международных конференций
  • возможность выбрать удобный формат работы: гибрид или офис
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.

Поделиться:

Опубликована 7 дней назад

Похожие вакансии

В связи с активным развитием проектов в компании открыта вакансия DATA ENGINEER в офис в Москве.
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
13 часов назад
Нужен Data Engineer, который сможет взять на себя часть непрофильной для аналитиков работы по автоматизации ...
  • Полный день
  • Опыт от 3 лет
Логотип компании OzonOzon
  • Москва
3 дня назад
Требования умение проектировать DWH, Data Lake, Data Management Platform опыт построения и развития высоконагруженных ...
  • Полный день
  • Опыт от 3 лет
Логотип компании СБЕРСБЕР
  • Москва
13 часов назад
Сейчас находимся на стадии формирования большой команды переформатирования образования в стране на базе ИИ Обязанности разработка ETL-процессов построение витрин данных и доработка существующих витрин данных оптимизация запросов конфигурация и оптими...
  • Полный день
  • Опыт от 3 лет
Логотип компании СБЕРСБЕР
  • Москва
13 часов назад
180 000 - 300 000 ₽
Рыночная зарплата
Backend-разработчик / Data Engineer (Telegram → управленческий учёт) Город: Москва Адрес офиса: Пресненская ...
  • Полный день
  • Опыт от 3 лет
Логотип компании ГлобалмаркетГлобалмаркет
  • Москва
13 часов назад
Сейчас мы находимся в поисках Teamlead Data Engineer в команду Data office S7.
  • Полный день
  • Опыт от 3 лет
Логотип компании S7 GroupS7 Group
  • Москва
3 дня назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.