ML Data Engineer (GigaChat Data)

По договоренности


Мы - команда ML-инженеров, специализирующаяся на инфраструктуре данных и валидации моделей. Наша команда создает критически важные инструменты для оценки качества моделей, разрабатывает пайплайны обработки данных и фокусируется на генерации высококачественных технических и кодовых данных для обучения моделей.

Наши основные направления:

• Validation & Metrics – инструменты валидации и замера моделей

• Data Engineering – пайплайны чистки и синтеза данных

• Code & Technical Data – генерация кодовых/технических данных

• MLOps – хостинг и использование opensource моделей

• Model Training – эксперименты с LoRA и SFT

Если тебе интересно создавать инфраструктуру для развития LLM и работать с передовыми технологиями в области данных — приходи к нам.

Обязанности

  • Validation & Metrics:
  • разрабатывать инструменты для валидации и замера качества моделей
  • создавать метрики оценки производительности и точности LLM
  • автоматизировать процессы тестирования и бенчмаркинга
  • Data Engineering:
  • строить и оптимизировать пайплайны чистки и синтеза данных
  • разрабатывать системы контроля качества данных
  • автоматизировать процессы фильтрации и предобработки
  • Code & Technical Data:
  • генерировать высококачественные кодовые и технические датасеты
  • работать с различными форматами программного кода и технической документации
  • создавать синтетические данные для обучения моделей на технических задачах
  • MLOps:
  • развертывать и поддерживать инфраструктуру для хостинга opensource моделей
  • интегрировать и использовать opensource модели в продуктовых решениях
  • обеспечивать мониторинг и масштабирование ML-сервисов
  • Model Training & Experiments:
  • обучать LoRA адаптеры для экспериментальных задач
  • проводить SFT обучение в рамках исследований данных
  • анализировать результаты экспериментов и итерировать подходы.

Требования

  • отличное знание Python и опыт работы с ML-библиотеками (LangChain/LangGraph, PyTorch, llm-foundry, verl)
  • опыт работы с LLM (как opensource: Llama, Mistral, Qwen, так и проприетарными: GPT, Claude)
  • понимание принципов работы с данными для обучения моделей: сбор, очистка, валидация
  • навыки построения ML пайплайнов и автоматизации процессов
  • понимание процессов, знание подходов к валидации и тестированию моделей машинного обучения
  • понимание основ MLOps и работы с контейнеризацией (Docker)

Будет плюсом:

  • опыт с фреймворками для работы с агентами и RAG
  • знание подходов к fine-tuning (LoRA, QLoRA, SFT)
  • опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B)
  • понимание принципов работы с кодовыми данными и техническими текстами
  • опыт развертывания и мониторинга ML-моделей в production

Условия

  • комфортный современный офис - м. Кутузовская
  • ежегодный пересмотр зарплаты, годовой бонус
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
  • корпоративная пенсионная программа.

Поделиться:

Опубликована месяц назад

Похожие вакансии

СберАналитика в цифрах: Более 7 лет развиваем продукты для анализа данных 18 продуктов в портфеле 9 патентов Более 1500 клиентов доверяют нашим решениям Команда из 500+ профессионалов Чем предстоит заниматься: Проектирование и разработка аналитически...
  • Полный день
  • Опыт от 1 года
Логотип компании ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ
  • Москва
день назад
Мы ищем опытного Data Engineer / Python Developer с сильными навыками работы с Python и облачными платформами данных для трансформации, управления и оптимизации финансовых данных Обязанности: Проектирование, разработка и поддержка ETL/ELT-процессов д...
  • Полный день
  • Опыт от 1 года
Логотип компании Recruitment Boutique S.M.ArtRecruitment Boutique S.M.Art
  • Москва
3 дня назад
165 000 - 220 000 ₽
Платформа ОФД - продуктовая IT-компания, крупнейший в России оператор фискальных данных. Мы создаем полезные и удобные сервисы для предпринимателей, анализируем рынок российского ритейла на данных из магазинных чеков. Приглашаем в команду Дата инжене...
  • Полный день
  • Опыт от 1 года
Логотип компании Платформа ОФДПлатформа ОФД
  • Москва
3 дня назад
Дата инженер - важный член команды, который проектирует, создает, обслуживает и оптимизирует инфраструктуру для работы с данными внутри компании, занимается предварительной обработкой данных, создает витрины для дальнейшего анализа профильными специа...
  • Полный день
  • Опыт от 1 года
Логотип компании AVONAVON
  • Москва
6 дней назад
Аптечная сеть «Ваша №1» приглашает в команду Data Scientist / ML — специалиста, который поможет нам строить умные модели для прогнозирования спроса, расчёта LTV, Churn Prediction, персонализации коммуникаций и клиентского опыта и прочих ML/AI задач. ...
  • Полный день
  • Опыт от 1 года
Логотип компании АПТЕКИ ВАША № 1АПТЕКИ ВАША № 1
  • Москва
3 дня назад
Объединённая компания Wildberries и Russ — это международная технологическая компания, образованная в результате слияния двух лидеров рынка — IT-компании Wildberries и оператора наружной рекламы Russ. Баланс Продавцов — мы учитываем все события в про...
  • Полный день
  • Опыт от 1 года
Логотип компании WILDBERRIESWILDBERRIES
  • Москва
4 дня назад

Похожие вакансии

Логотип компании ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ
Логотип компании Recruitment Boutique S.M.ArtRecruitment Boutique S.M.Art
165 000 - 220 000 ₽
Логотип компании Платформа ОФДПлатформа ОФД
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.