Data Engineer (Kandinsky)
По договоренности
Kandinsky — линейка моделей для генерации изображений и видео по текстовому описанию. Наша команда занимается обучением и развитием модели, аналитикой и построением метрик её работы, специализируется на создании инновационных решений в области искусственного интеллекта и нейросетей. Мы разрабатываем модели, направленные на улучшение взаимодействия между человеком и AI, автоматизацию процессов анализа больших объемов данных, распознавание изображений и обработку естественного языка, а также создание креативных инструментов для автоматической генерации визуального контента высокого уровня.
Обязанности
- проектирование и разработка ETL/ELT-пайплайнов для обработки изображений и видеоданных, как в экосистеме Apache Airflow, так и в формате автономных Python-скриптов.
- автоматизация процессов загрузки, предобработки и анализа данных: загрузка изображений и видео, обработка полученных данных, определение технических артефактов (например, наличие чёрных полос), трансформация и подготовка данных под требуемые форматы.
- проектирование и поддержка высоконагруженных пайплайнов с возможностью масштабирования на распределённую обработку.
- разработка высоконагруженных процессов нарезки, сжатия и конвертации видеофайлов крупного размера с использованием оптимизированных инструментов (ffmpeg, multiprocessing, async-подходы)
- реализация механизмов отслеживания состояния и истории данных: учёт уже обработанных файлов, планирование задач по догрузке, ведение служебных таблиц
- поддержка платформы данных: создание и оптимизация DDL/DML-скриптов, настройка таблиц под аналитические и операционные нагрузки
- подготовка датасетов по требованиям внутренних и внешних заказчиков, обеспечение качества и полноты данных
- поддержка CI/CD-процессов и стандартизация кодовой базы в соответствии с инженерными практиками и паттернами проектирования.
Требования
- веренный практический опыт разработки ETL-процессов с использованием Apache Airflow либо аналогичных систем оркестрации
- опыт работы с S3 или совместимыми объектными хранилищами, понимание структуры и принципов организации data-lake
- понимание принципов распределённой обработки данных и работы PySpark
- уверенные навыки разработки на Python, включая использование асинхронных инструментов, многопроцессной обработки, работы с большими файлами и медиа-данными
- опыт написания Bash-скриптов для автоматизации рутинных процессов.
- глубокое понимание принципов проектирования чистой архитектуры, шаблонов проектирования и построения легко-поддерживаемых модульных систем
- опыт работы с PostgreSQL и ClickHouse, навыки написания оптимизированных запросов и проектирования таблиц
- опыт работы с Docker и Kubernetes, понимание контейнеризации пайплайнов данных.
Условия
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность быть соавтором НИРов и статей для международных конференций
- возможность выбрать удобный формат работы: гибрид или офис
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
Опубликована 2 дня назад
Похожие вакансии
2MOOD — это бренд женской одежды новой формации. Мы предлагаем высокий сервис и внедряем формат минимальной дистанции с потребителем. Ассортимент бренда отвечает всем главным критериям времени. Помимо функционального базового гардероба представлены и...
- Полный день
- Опыт от 3 лет
- Москва
16 часов назад
Мы разрабатываем новые банковские продукты и улучшаем текущие. Наши сервисы помогают миллионам клиентов удалённо пользоваться банковскими услугами, оформлять карты, брать кредиты и инвестировать. Мы даём возможность агропредпринимателям продавать и п...
- Полный день
- Опыт от 3 лет
- Москва
17 часов назад
МГТС — основной телекоммуникационный партнер Города Москвы и часть экосистемы МТС. Проектируем, строим и эксплуатируем передовую телекоммуникационную инфраструктуру, развиваем и внедряем сети нового поколения, реализуем комплексные решения для Умного...
- Полный день
- Опыт от 3 лет
- Москва
16 часов назад
до 250 000 ₽
Рыночная зарплата
Чем предстоит заниматься Сбор и анализ требований (в т.ч. определение требований к данным) Подготовка и согласование проектной и эксплуатационной документации (BRD/FSD (Бизнес-требования/Функциональная спецификация/Техническое задание на загрузку и т...
- Полный день
- Опыт от 3 лет
- Москва
4 дня назад
Вы можете присоединиться к команде, которая занимается генеративной аналитикой и исследованиями того, как лучше решать существующие задачи с помощью RAG. Вы будете: заниматься поиском и внедрением передовых подходов к работе с данными с использование...
- Полный день
- Опыт от 3 лет
- Москва
4 дня назад
Вакансия в подборках
Похожие вакансии
до 250 000 ₽