Data Scientist/ Дата-сайентист (RAG/LLM/NLP)

По договоренности


Мы разрабатываем интеллектуальные системы на базе open-source LLM для автоматизации анализа структурированных и неструктурированных данных компании.

Основные направления:

  • Создание RAG-решений для обработки текстовых данных (PDF, Word, базы данных) и изображений (сканы документов, таблицы);
  • Интеграция NLP-моделей с внутренними сервисами для улучшения поддержки сотрудников и клиентов.

Мы предлагаем:

  • Трудоустройство по ТК РФ, полную занятость, белую зарплату;
  • Регулярное повышение зарплаты с ростом скиллов и по результатам работы;
  • Гибкий старт рабочего дня, который вы выбираете сами;
  • ДМС после испытательного;
  • Формат работы на выбор: из дома или из офиса;
  • Работу без KPI и тайм-трекингов;
  • Полную оплату обучения;
  • Удобный офис с пространствами для отдыха, приёма пищи, кофемашинами и плюшками;
  • Компенсацию половины твоих трат на спорт.

В твои задачи будет входить:

  • Разработка и оптимизация RAG-пайплайнов: векторизация данных, семантический/гибридный поиск, генерация ответов с использованием LLM;
  • Извлечение текста из изображений и PDF-документов с помощью OCR (Tesseract, OpenCV);
  • Интеграция моделей через API (FastAPI, REST) с корпоративными системами и базами данных (SQL);
  • Обучение и адаптация open-source LLM (LLaMA, Gemma) под бизнес-задачи;
  • Оптимизация качества работы моделей: снижение ошибок генерации, A/B-тестирование, оценка метрик (precision/recall).

Что важно:

  • Фокус на практическое применение моделей;
  • Умение работать с открытыми решениями и оптимизировать их под бизнес-задачи.

Мы ожидаем, что у тебя есть:

  • Опыт разработки RAG-систем: работа с векторными БД (FAISS, ChromaDB), фреймворками (LangChain, LlamaIndex), chunking текста;
  • Навыки в NLP: fine-tuning моделей (Hugging Face), предобработка текста (регулярные выражения, очистка данных);
  • Работа с изображениями: базовый опыт в OCR (Tesseract, OpenCV), обработка PDF/Word;
  • Уверенный Python: FastAPI, асинхронное программирование, Pandas;
  • Понимание метрик ML: оценка качества поиска и генерации (precision/recall, ROUGE).
  • Фокус на практическое применение моделей.




Поделиться:

Опубликована 3 дня назад

Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.