Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer
По договоренности
Мы — продуктовая команда, делаем приложения для конечных пользователей и активно используем ML. Растём быстро: любим новые технологии, но понимаем, что результат — это ещё и регулярная “рутинная” инженерная работа.
Сейчас у нас 10 продуктов дающие порядка 1 000 000 установок ежемесячно:
-
Saby — Baby monitor
-
Visory — Security camera
-
Imgit — AI art generator
Мы находимся в Испании, работать можно удалённо из любой точки мира, в удобное время. Важен результат и ответственность.
Задача роли (что нужно сделать)
Твоя основная миссия — построить и поддерживать надёжный пайплайн массового сбора отзывов/комментариев из:
-
Reddit (посты + треды комментариев, поиск по сабреддитам/ключевым словам, фильтры по времени/популярности)
-
Trustpilot (страницы компаний/продуктов, отзывы, рейтинги, метаданные)
Дальше эти данные будут использоваться, чтобы:
выделять боли пользователей в существующих приложениях/сервисах
находить ниши, где мы можем быстро делать MVP и забирать спрос
Чем будешь заниматься
-
Разработка парсеров и/или интеграций с API (где возможно) для Reddit и Trustpilot
-
Массовый сбор данных: миллионы сущностей (посты/комменты/отзывы) с контролем качества
-
Нормализация данных: единые схемы, дедупликация, языковые поля, таймстемпы, ссылки на источники
-
Построение пайплайна: планировщик, очереди, ретраи, обработка ошибок, мониторинг
-
Антифрод/антибан устойчивость: лимиты, ротации, корректное соблюдение правил платформ
-
Экспорт в хранилище (SQL/NoSQL/BigQuery/S3 — выберем оптимально)
-
Базовые аналитические выгрузки для продукта/ресерча: “топ-боли”, частотность, кластеры по темам (можно совместно с ML)
Эта вакансия для тебя, если ты
-
Умеешь самостоятельно доводить задачу до работающей системы, а не “скрипта на один запуск”
-
Любишь копаться в данных и строить системы сбора “под нагрузку”
-
Понимаешь, что парсер = продукт, которому нужны тесты, мониторинг и поддержка
-
Ок с удалёнкой и работой на результат (без микроменеджмента)
Требования (обязательно)
-
Опыт разработки парсеров / скрейперов / data ingestion систем в проде для Reddit или Trustpilot
-
Умение проектировать устойчивый сбор данных:
-
rate limits, backoff/retry, очереди, таймауты, прокси/ротации (если нужно)
-
восстановление после падений, идемпотентность, дедупликация
-
-
Умение работать с:
-
HTTP, cookies/sessions, pagination, динамическими страницами
-
парсингом HTML (CSS selectors/XPath) и JSON
-
-
Знание одного из стеков:
-
Python или Node.js
-
-
Умение писать понятный код, покрывать критичное тестами и логами
Будет плюсом
-
Опыт построения ETL:
-
Airflow/Prefect/Temporal
-
Kafka/RabbitMQ/SQS
-
-
Опыт с хранилищами и аналитикой:
-
Postgres, ClickHouse, BigQuery, Elasticsearch
-
-
Опыт с NLP-задачами “pain mining”:
-
тематическое моделирование, кластеризация, embeddings
-
Пример ожидаемого результата через 2–4 недели работы (ориентир)
-
Reddit: сбор по списку сабреддитов и ключевиков, треды комментариев, обновления “инкрементально”
-
Trustpilot: сбор отзывов по списку компаний/категорий, стабильная пагинация, контроль пропусков
-
Хранилище + схема + базовая витрина данных
-
Метрики: сколько собрано, процент ошибок, пропуски/дубликаты, скорость
Условия
-
Удалённая работа, фулл-тайм, гибкий график
-
Чёткие задачи и ожидаемый результат, адекватная оценка времени
-
Интересные задачи на стыке данных, автоматизации и продуктового ресерча
-
Официальное оформление
Опубликована 10 часов назад
Похожие вакансии
- Можно удаленно
- Полный день
- Опыт от 1 года
- Москва
- Можно удаленно
- Полный день
- Опыт от 1 года
- Москва
- Можно удаленно
- Полный день
- Опыт от 1 года
- Москва
- Можно удаленно
- Полный день
- Опыт от 1 года
- Москва
- Можно удаленно
- Частичная занятость
- Опыт от 1 года
- Москва
- Можно удаленно
- Полный день
- Опыт от 1 года
- Москва