Стажер Data Scientist (CV)
По договоренности
Сейчас мы ищем стажеров в передовые проекты по CV, включая анализ изображений (классификация, детекция, сегментация) и создание решений на основе генеративных моделей для визуального контента (генерация фона и теней, поворот объекта). Вам предстоит проводить исследования в области CV-моделей: оценивать их качество, адаптировать для работы с видео и развивать технологии модерации контента карточек, обеспечивая точность, надёжность и соответствие бизнес-требованиям.
Стек технологий:
-
Разработка: Python, Git, FastAPI, GitLab, Docker, Prometheus, Grafana.
-
ML инфраструктура: JupyterHub, MLFlow, Airflow.
-
ML: PyTorch, Diffusers, Transformers, OpenCV, Albumentations, Scikit-learn.
-
Данные: SQL (PostgreSQL/ClickHouse/GreenPlum), S3, Polars, Pandas, NumPy.
-
Процессы: Jira, Confluence.
Обязательные навыки и знания:
-
Знания и умение работать с Python, ООП.
-
Умение работать с git.
-
Понимание основ нейронных сетей для CV: принципы работы свертки, фильтров, padding, pooling.
-
Знание ключевых архитектур: ResNet, YOLO, U-Net, Transformer-based и авторегрессивные модели.
-
Практический опыт работы с готовыми моделями (Stable Diffusion и аналоги) через библиотеки (Diffusers и аналоги).
-
Знание PyTorch, и опыт с каким-либо фреймворком обучения моделей для изображений.
-
Понимание процессов предобработки изображений.
-
Понимание метрик: Accuracy, mAP, IoU, FID, Inception Score, CLIP-score.
Навыки, которые будут плюсом:
-
Знакомство с Transfer Learning и Fine-Tuning.
-
Понимание задач сегментации vs детекции, знание архитектуры U-Net для сегментации.
-
Базовое знакомство с эффективным поиском эмбеддингов (FAISS, Elasticsearch).
-
Понимание принципов работы базовых генеративных моделей: GAN, VAE, Diffusion Models.
-
Знакомство с методами контроля генерации (текстовые промпты, ControlNet).
Задачи:
-
Предобработка и аугментация изображений для обучения моделей.
-
Подбор, адаптация и обучение моделей для задач анализа (детекция, классификация) или генерации.
-
Оценка качества моделей с использованием релевантных метрик.
-
Помощь в интеграции моделей в пайплайны данных и создание демонстрационных прототипов.
Процесс отбора на стажировку выглядит так:
-
резюме и короткая анкета в ответ;
-
тестовое задание объемом ~3 часа;
-
интервью с командой;
-
предложение работы.
Наши стажировки оплачиваемые, длятся 3 месяца или дольше, 30-40 рабочих часов в неделю в гибком графике.
Вы будете постепенно включаться в реальные процессы разработки ML моделей: от выполнения небольших, хорошо структурированных задач, под присмотром опытного наставника до участия в обсуждении архитектуры и принятия решений. В конце стажировки сможете работать с проектами на уровне junior+ DS, понимать бизнес-задачи и вносить осознанный вклад в развитие платформы.
Опубликована 2 дня назад
Похожие вакансии
- Можно удаленно
- Полный день
- Без опыта
- Москва
- Можно удаленно
- Полный день
- Без опыта
- Москва
- Можно удаленно
- Частичная занятость
- Без опыта
- Москва