Data Engineer
По договоренности
Мы — команда, создающая ядро интеллектуальных сервисов для амбициозной международной аналитической платформы. Наш продукт помогает бизнесу принимать стратегические решения на глобальных рынках, предоставляя уникальные инструменты для поиска, анализа и прогнозирования на основе любых типов данных — от новостных лент до внутренних баз знаний.
Мы ищем опытного и системно мыслящего Data Engineer. Вам предстоит построить надежный фундамент данных для всей платформы, разрабатывая масштабируемые пайплайны и решая нетривиальные задачи по извлечению информации из самых разных источников.
Обязанности
- Проектирование архитектуры данных: Участвовать в разработке архитектуры хранения и обработки больших объемов структурированных и неструктурированных данных.
- Сбор данных из открытых источников: Разрабатывать и поддерживать парсеры для веб-сайтов и Telegram-каналов, а также интегрироваться с различными API.
- Построение и оптимизация Data Pipelines: Создавать, автоматизировать и поддерживать надежные ETL/ELT пайплайны для регулярного сбора, очистки, трансформации и загрузки данных с использованием современных инструментов (например, Airflow, Prefect, Dagster).
- Автоматизация с помощью ИИ-агентов: Создавать и применять ИИ-агентов (на базе LLM) для автоматизации процессов сбора, предварительной классификации и валидации данных, повышая эффективность своей работы.
- Проектирование хранилищ и моделей данных: Разрабатывать логические и физические модели данных в PostgreSQL, оптимизировать структуру баз данных для аналитических и ML-запросов.
- Обеспечение качества и надежности (DataOps): Внедрять практики CI/CD для пайплайнов, настраивать мониторинг качества данных, анализировать и устранять инциденты.
Требования
Опыт работы Data Engineer от 3-х лет.
Уверенное владение Python и его экосистемой для работы с данными (Pandas, Polars, SQLAlchemy и др.).
Глубокое знание SQL, умение писать сложные, оптимизированные запросы.
Опыт проектирования и администрирования баз данных на PostgreSQL, Milvus (индексы, партиционирование, оптимизация запросов).
Экспертизой в сборе данных (Data Acquisition):
Практический опыт разработки веб-парсеров с использованием фреймворков (например, Scrapy, Playwright, Selenium, BeautifulSoup).
Опыт работы с асинхронностью (asyncio).
Опыт сбора данных из мессенджеров (например,через Telethon/Pyrogram для Telegram).
Опытом построения пайплайнов:
Опыт проектирования и поддержки ETL/ELT процессов.
Практический опыт работы с одним из оркестраторов (Apache Airflow, Prefect, Dagster).
Сильными DevOps навыками:
Опыт работы с Docker для контейнеризации приложений.
Понимание принципов CI/CD и опыт их применения (например, GitLab CI).
Уверенное владение Git.
Будет большим плюсом
Опыт работы с Kubernetes.
Опыт работы с брокерами сообщений (например, Kafka, RabbitMQ).
Знакомство с инструментами для обработки больших данных (Apache Spark).
Опыт работы с векторными или графовыми базами данных.
Опыт применения LLM (например, через LangGraph/LangChain) для решения задач обработки данных.
Условия
гибкий формат работы
ежегодный пересмотр зарплаты и годовая премия
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера.
Опубликована 5 часов назад