Data Engineer (AI/LLM Data & Infrastructure)

от 180 000 ₽

Выше средней на 20%

Предлагаем:

  • официальное оформление с первого рабочего дня;

  • заработная плата 180 000 рублей на руки;

  • график работы 5/2 с 9 до 18;

  • офис м. Нагатинская/м. Верхние Котлы;

  • компенсация питания;

  • полный социальный пакет.

Чем предстоит заниматься:

  • разработка, тестирование и поддержка ETL-пайплайнов для сбора, очистки, дедупликации и фильтрации обучающих корпусов;

  • парсинг разнородных документов в структурированные форматы, пригодные для обучения языковых моделей;

  • глубокий анализ больших объемов текстовых и структурированных данных, написание и оптимизация скриптов на Python и SQL;

  • полный цикл поддержки данных: от исследования источников и прототипирования парсеров до production-эксплуатации и мониторинга качества;

  • исследование и внедрение новых подходов в обработке данных для LLM: улучшение фильтрации шумов, оптимизация словарей, автоматизация evaluation-пайплайнов.

От Вас ожидаем:

  • глубокое понимание архитектуры данных, принципов построения ETL/ELT-пайплайнов и жизненного цикла данных для обучения AI-моделей;

  • свободное владение Python и основными библиотеками для обработки данных: Инженерия данных: Polars, Pandas, PyArrow, Dask/Spark Веб-скрапинг и парсинг: Scrapy, Playwright, BeautifulSoup, инструменты разбора документов * NLP-экосистема: Hugging Face Datasets, Tokenizers, NLTK, spaCy;

  • понимание принципов работы токенизаторов и архитектур LLM: опыт разработки или кастомизации токенизаторов, оптимизация словаря под русский язык, работа с subword-алгоритмами (BPE, Unigram, SentencePiece);

  • знание открытых и корпоративных источников данных, умение работать с лицензиями, авторскими правами и compliance при сборе обучающих корпусов;

  • наличие успешного опыта внедрения data-пайплайнов «под ключ» для NLP/LLM-проектов в production-среде.

Сравнение со средней зарплатой в похожих вакансиях:

100k

200k

70k

150k

300k


Поделиться:

Опубликована 3 часа назад

Похожие вакансии

Нужны деньги до новой зарплаты? Кредитка Platinum от Т-Банка — до 1 000 000 ₽, 55 дней без %. Доставим сегодня бесплатно.
Получить карту
Автономные технологии — компания, которая разрабатывает инновационные решения, направленные на улучшение и совершенствование робототехники и технологий машинного обучения с применением передовых технологий искусственного интеллекта (ИИ) и уникальных ...
  • Полный день
  • Опыт от 1 года
Логотип компании Автономные ТехнологииАвтономные Технологии
  • Москва
день назад
до 200 000 ₽
Выше средней на 33%
Команды CDO B2C в поиске Data engineer в сфере управления данными и data-продуктами. ... Мы ищем опытного и амбициозного data-инженера, который готов вместе с нами создать будущее данных Сбера ... опыт работы с оркестраторами (например, Airflow) и CI/CD опыт построения архитектуры данных (например, Data ...
  • Полный день
  • Опыт от 1 года
Логотип компании СБЕРСБЕР
  • Москва
день назад
от 150 000 ₽
Рыночная зарплата
IT-компания TrueConf ищет опытного Data Engineer/Backend с уверенным бекграундом на коммерческих продуктах ...
  • Полный день
  • Опыт от 1 года
Логотип компании TrueConfTrueConf
  • Москва
7 дней назад
Сейчас находимся в поиске Data Engineer.
  • Полный день
  • Опыт от 1 года
Логотип компании Текс-МодТекс-Мод
  • Москва
7 дней назад
150 000 - 180 000 ₽
Выше средней на 10%
Обязанности: • Повышение качества данных во внутренних системах • Подготовка данных для BI-аналитики • Ad hoc задачи • Взаимодействие с другими структурными подразделениями по вопросам, связанным с техническим сопровождением проектов • Написание и до...
  • Полный день
  • Опыт от 1 года
Логотип компании Diamond Personnel R&CDiamond Personnel R&C
  • Москва
8 дней назад

Похожие вакансии

Логотип компании Автономные ТехнологииАвтономные Технологии
до 200 000 ₽
Логотип компании СБЕРСБЕР
от 150 000 ₽
Логотип компании TrueConfTrueConf
Логотип компании Текс-МодТекс-Мод
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.