Стажер Data Scientist (NLP)
По договоренности
Сейчас мы ищем стажеров на проекты по разработке, адаптации и внедрению новых NLP-решений — от классических моделей для анализа текста (поиск, рекомендации, автоматизации процессов) до современных агентских и RAG-систем для повышения эффективности производственных и бизнес-процессов.
Стек технологий:
-
Разработка: Python, Git, FastAPI, GitLab, Docker, Prometheus, Grafana.
-
ML инфраструктура: JupyterHub, MLFlow, Airflow.
-
ML: PyTorch, Transformers, Triton, NLTK, SpaCy.
-
Агенты: LangGraph, векторные БД (FAISS/Qdrant), sglang.
-
Данные: SQL (PostgreSQL/ClickHouse/GreenPlum), S3, Polars, Pandas, NumPy.
-
Процессы: Jira, Confluence.
Обязательные навыки:
-
Знания и умение работать с Python, ООП.
-
Умение работать с git.
-
Знание основ обработки естественного языка: токенизация, лемматизация, стоп-слова, регулярные выражения.
-
Понимание классических методов NLP: TF-IDF, Bag of Words, Word2Vec/FastText.
-
Умение работать с готовыми моделями из Hugging Face (загрузка, инференс) для базовых задач (классификация текста, NER, QA, LLM).
-
Понимание архитектуры Transformer и различий между типами моделей (encoder, decoder, encoder-decoder).
-
Знание метрик оценки для классических задач (Accuracy, F1) и генеративных (BLEU, ROUGE).
-
Базовое понимание LLM: что это такое, использование через API, основы промптинга (zero-shot, few-shot), настройка параметров генерации.
Навыки, которые будут плюсом:
-
Опыт дообучения (fine-tuning) NLP-моделей, включая базовые LLM, с использованием библиотек (Transformers, PEFT, например, LoRA).
-
Умение проводить аугментацию текстовых данных и организовывать процесс их разметки.
-
Базовое знакомство с оптимизацией инференса моделей (квантование, использование vLLM, sglang, triton, ONNX).
-
Понимание и практический опыт сборки RAG-систем (Retrieval-Augmented Generation): работа с векторными базами данных, поиск релевантного контекста.
-
Знакомство с фреймворками для создания LLM-приложений и агентов (LangChain, LlamaIndex).
-
Опыт работы с ASR/TTS моделями обработки аудиоданных.
Задачи:
- Предобработка и анализ данных: сбор, очистка и разведочный анализ текстовых данных.
- Разработка и эксперименты: обучение и оценка NLP моделей.
- Работа с LLM: адаптация открытых LLM под конкретные задачи с помощью промпт-инжиниринга и fine-tuning, помощь в построении RAG-конвейеров, агентов.
- Продукционизация: участие во встраивании моделей в пайплайны и создании прототипов сервисов (например, чат-ботов).
Процесс отбора на стажировку выглядит так:
-
резюме и короткая анкета в ответ;
-
тестовое задание объемом ~3 часа;
-
интервью с командой;
-
предложение работы.
Наши стажировки оплачиваемые, длятся 3 месяца или дольше, 30-40 рабочих часов в неделю в гибком графике.
Вы будете постепенно включаться в реальные процессы разработки ML моделей: от выполнения небольших, хорошо структурированных задач, под присмотром опытного наставника до участия в обсуждении архитектуры и принятия решений. В конце стажировки сможете работать с проектами на уровне junior+ DS, понимать бизнес-задачи и вносить осознанный вклад в развитие платформы.
Опубликована 2 дня назад
Похожие вакансии
- Можно удаленно
- Полный день
- Без опыта
- Москва
- Можно удаленно
- Полный день
- Без опыта
- Москва
- Можно удаленно
- Частичная занятость
- Без опыта
- Москва