- Работа в Томске
- Удаленно
- Data scientist
- Data Scientist/ Дата-сайентист (RAG/LLM/NLP)
Data Scientist/ Дата-сайентист (RAG/LLM/NLP)
По договоренности
Мы разрабатываем интеллектуальные системы на базе open-source LLM для автоматизации анализа структурированных и неструктурированных данных компании.
Основные направления:
- Создание RAG-решений для обработки текстовых данных (PDF, Word, базы данных) и изображений (сканы документов, таблицы);
- Интеграция NLP-моделей с внутренними сервисами для улучшения поддержки сотрудников и клиентов.
Мы предлагаем:
- Трудоустройство по ТК РФ, полную занятость, белую зарплату;
- Регулярное повышение зарплаты с ростом скиллов и по результатам работы;
- Гибкий старт рабочего дня, который вы выбираете сами;
- ДМС после испытательного;
- Формат работы на выбор: из дома или из офиса;
- Работу без KPI и тайм-трекингов;
- Полную оплату обучения;
- Удобный офис с пространствами для отдыха, приёма пищи, кофемашинами и плюшками;
- Компенсацию половины твоих трат на спорт.
В твои задачи будет входить:
- Разработка и оптимизация RAG-пайплайнов: векторизация данных, семантический/гибридный поиск, генерация ответов с использованием LLM;
- Извлечение текста из изображений и PDF-документов с помощью OCR (Tesseract, OpenCV);
- Интеграция моделей через API (FastAPI, REST) с корпоративными системами и базами данных (SQL);
- Обучение и адаптация open-source LLM (LLaMA, Gemma) под бизнес-задачи;
- Оптимизация качества работы моделей: снижение ошибок генерации, A/B-тестирование, оценка метрик (precision/recall).
Что важно:
- Фокус на практическое применение моделей;
- Умение работать с открытыми решениями и оптимизировать их под бизнес-задачи.
Мы ожидаем, что у тебя есть:
- Опыт разработки RAG-систем: работа с векторными БД (FAISS, ChromaDB), фреймворками (LangChain, LlamaIndex), chunking текста;
- Навыки в NLP: fine-tuning моделей (Hugging Face), предобработка текста (регулярные выражения, очистка данных);
- Работа с изображениями: базовый опыт в OCR (Tesseract, OpenCV), обработка PDF/Word;
- Уверенный Python: FastAPI, асинхронное программирование, Pandas;
- Понимание метрик ML: оценка качества поиска и генерации (precision/recall, ROUGE).
- Фокус на практическое применение моделей.
Поделиться:
Опубликована 3 дня назад