Data Engineer
По договоренности
Сегодня Билайн — компания изменений, чутко реагирующая на потребности рынка и людей. А ещё Билайн — это команда, объединённая общими ценностями и общей целью — быть лидером телеком и digital рынков, предоставляя нашим клиентам новейшие продукты и услуги, а также сервис самого высокого уровня.
Сейчас у вас есть возможность присоединиться к лучшей команде в роли Data Engineer! Наша команда – это команда клиентского опыта. Мы по разным направлениям проводим аналитику метрик качества клиентского сервиса, находим проблемы и контролируем их устранение.
Итак, вам предстоит:
- Проектирование, разработка и поддержка ETL/ELT-пайплайнов.
- Интеграция с различными источниками данных (API, базы данных, файлы, очереди).
- Оптимизация процессов обработки больших данных (10ТБ+).
- Работа с распределёнными системами хранения и вычислений (Hadoop, Spark).
- Настройка оркестрации и мониторинга пайплайнов в Airflow.
- Поддержка и развитие хранилища (ClickHouse, HDFS, Postgresql)
- Подготовка витрин данных для аналитиков и ML-команды.
- Документация пайплайнов, best practices в команде.
- Разработка инструментов для интеграции LLM в продукты (API, библиотеки и пр.)
- Разработки агентов и агентных систем
- Разработка баз знаний для RAG
- Fine-tuning/адаптация LLM для специфичных задач/домен (PeFT, SFT).
Мы будем рады рассмотреть вашу кандидатуру, если у вас есть:
- Опыт работы Data Engineer от 2 лет.
- Опыт коммерческой разработки на Python (3.6+).
- Опыт работы с PySpark и экосистемой Hadoop (HDFS, Yarn).
- Понимание принципов работы распределённых вычислений и оптимизации Spark-джоб.
- Практический опыт работы с Airflow (DAG’и, сенсоры, операторы, оптимизация).
- Знания основ Machine Learning / Deep Learning
- Глубокое понимание архитектуры Transformer.
- Умение работать с большими объёмами данных (10ТБ+).
- Знание SQL (в т.ч. оптимизации сложных запросов)
- Опыт работы с системами контроля версий (у нас Git + Gitlab).
Будет плюсом:
- Опыт CI/CD (у нас GitLab CI).
- Знания в области Data Modeling (звёздная/снежинка, нормализация).
- Навыки работы с JupyterHub, подготовка data notebooks.
- Знакомство с ML-пайплайнами и особенностями подготовки данных для моделей.
- Практический опыт fine-tuning языковых моделей (GPT-like, BERT-like и др.)
- Если работали с потоковой обработкой данных.
- Знакомы с инструментом NiFi.
Наш стек:
- Scala / Python
- Hadoop (hdfs, hive)
- Doris, ClickHouse
- Apache Spark
- Airflow
Что мы предлагаем:
- Трудоустройство в аккредитованную ИТ-компанию.
- Сплоченную команду профессионалов, в которой можно не только успешно реализовывать проекты, но и перенимать опыт и развиваться.
- Обучение, участие в интересных проектах и расширение профессиональной экспертизы: мы участвуем в конференциях, митапах, публикуемся на Хабр и т.д.
- Конструктивную и открытую рабочую атмосферу.
- Полис добровольного медицинского страхования, обслуживаемый в лучших клиниках, а также чек-ап для сотрудников 40+.
- Страхование жизни, страхование от несчастных случаев и критических заболеваний, страхование выезжающих за рубеж.
- Материальную помощь.
- Детские подарки.
- Доплату по листу нетрудоспособности.
- Корпоративные скидки на товары и услуги от партнеров компании.
- Служебную сотовую связь.
- Кафетерий льгот — возможность самостоятельно выбрать дополнительные корпоративные льготы и бонусы (спорт, здоровье, обучение, путешествия, транспорт и др.). Доступно после испытательного срока.
Опубликована 20 часов назад
Похожие вакансии
Вакансии быстро закрываются — подпишитесь на наш канал в MAX сейчас, чтобы видеть их первыми.
Подписаться в MAX Участие в Data Governance (техническая реализация стандартов). ... (работа с библиотеками Spark/PySpark/pandas/numpy) Глубокое понимание архитектуры Big Data-платформ ( ... включая DWH, Data Lakes), принципов работы ETL/ELT.
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
Flink DataStream Реализация архитектуры потоков данных Написание и доработка Java приложений для Big Data ... исключения и generics Spring Boot: Опыт разработки микросервисов и REST API с Spring Boot, включая Spring Data ...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад
... существующие процессы формировать BPMN нотации ЧТО НУЖНО ДЛЯ ЭТОЙ РАБОТЫ: опыт работы от 3 лет в роли Data ... Engineer уверенное знание SQL и Python опыт работы с ETL/ELT-инструментами и фреймворками: Apache Airflow ... Quality и Data Governance в коде. знать Git Будет преимуществом: знакомство с инструментами каталога ...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
3 дня назад
Чем предстоит заниматься: Проектирование и развитие data-пайплайнов для обработки событий кибербезопасности ... Что мы ждем от кандидата: Опыт построения и эксплуатации data pipelines (ETL, ELT и/или streaming) в ... ; Практики data quality (валидации, контроль пропусков и объёмов данных.
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
6 дней назад
... масштабируемых и отказоустойчивых решений (репликация, шардирование в ClickHouse); построение и поддержка Data ...
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
2 дня назад