Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer

По договоренности

Москва

Мы — продуктовая команда, делаем приложения для конечных пользователей и активно используем ML. Растём быстро: любим новые технологии, но понимаем, что результат — это ещё и регулярная “рутинная” инженерная работа.

Сейчас у нас 10 продуктов дающие порядка 1 000 000 установок ежемесячно:

Saby — Baby monitor
Visory — Security camera
Imgit — AI art generator

Мы находимся в Испании, работать можно удалённо из любой точки мира, в удобное время. Важен результат и ответственность.

Задача роли (что нужно сделать)

Твоя основная миссия — построить и поддерживать надёжный пайплайн массового сбора отзывов/комментариев из:

Reddit (посты + треды комментариев, поиск по сабреддитам/ключевым словам, фильтры по времени/популярности)
Trustpilot (страницы компаний/продуктов, отзывы, рейтинги, метаданные)

Дальше эти данные будут использоваться, чтобы:

выделять боли пользователей в существующих приложениях/сервисах

находить ниши, где мы можем быстро делать MVP и забирать спрос

Чем будешь заниматься

Разработка парсеров и/или интеграций с API (где возможно) для Reddit и Trustpilot
Массовый сбор данных: миллионы сущностей (посты/комменты/отзывы) с контролем качества
Нормализация данных: единые схемы, дедупликация, языковые поля, таймстемпы, ссылки на источники
Построение пайплайна: планировщик, очереди, ретраи, обработка ошибок, мониторинг
Антифрод/антибан устойчивость: лимиты, ротации, корректное соблюдение правил платформ
Экспорт в хранилище (SQL/NoSQL/BigQuery/S3 — выберем оптимально)
Базовые аналитические выгрузки для продукта/ресерча: “топ-боли”, частотность, кластеры по темам (можно совместно с ML)

Эта вакансия для тебя, если ты

Умеешь самостоятельно доводить задачу до работающей системы, а не “скрипта на один запуск”
Любишь копаться в данных и строить системы сбора “под нагрузку”
Понимаешь, что парсер = продукт, которому нужны тесты, мониторинг и поддержка
Ок с удалёнкой и работой на результат (без микроменеджмента)

Требования (обязательно)

Опыт разработки парсеров / скрейперов / data ingestion систем в проде для Reddit или Trustpilot
Умение проектировать устойчивый сбор данных:
- rate limits, backoff/retry, очереди, таймауты, прокси/ротации (если нужно)
- восстановление после падений, идемпотентность, дедупликация
Умение работать с:
- HTTP, cookies/sessions, pagination, динамическими страницами
- парсингом HTML (CSS selectors/XPath) и JSON
Знание одного из стеков:
- Python или Node.js
Умение писать понятный код, покрывать критичное тестами и логами

Будет плюсом

Опыт построения ETL:
- Airflow/Prefect/Temporal
- Kafka/RabbitMQ/SQS
Опыт с хранилищами и аналитикой:
- Postgres, ClickHouse, BigQuery, Elasticsearch
Опыт с NLP-задачами “pain mining”:
- тематическое моделирование, кластеризация, embeddings

Пример ожидаемого результата через 2–4 недели работы (ориентир)

Reddit: сбор по списку сабреддитов и ключевиков, треды комментариев, обновления “инкрементально”
Trustpilot: сбор отзывов по списку компаний/категорий, стабильная пагинация, контроль пропусков
Хранилище + схема + базовая витрина данных
Метрики: сколько собрано, процент ошибок, пропуски/дубликаты, скорость

Условия

Удалённая работа, фулл-тайм, гибкий график
Чёткие задачи и ожидаемый результат, адекватная оценка времени
Интересные задачи на стыке данных, автоматизации и продуктового ресерча
Официальное оформление

⚡ Откликнуться на hh.ru

Опубликована 23 дня назад

Fullstack-разработчик

... процессах CI/CD Участие в развитии архитектуры приложения Проведение код-ревью Взаимодействие с другими разработчиками ...

Можно удаленно
Полный день
Опыт от 1 года

Kept (Кэпт)

Москва

6 дней назад

⚡ Откликнуться на hh.ru

Разработчик 1С

Для усиления команды ищем разработчика 1С.

Можно удаленно
Полный день
Опыт от 1 года

VOXYS

Москва

6 дней назад

⚡ Откликнуться на hh.ru

PHP-разработчик

Авиакомпания «Победа» – команда уникальных специалистов. Мы устанавливаем новые стандарты мировой авиационной индустрии. Мы всегда в поиске новых талантов и профессионалов для достижения общей цели и покорения новых высот! Каждому сотруднику мы предл...

Можно удаленно
Частичная занятость
Опыт от 1 года

Авиакомпания Победа

Москва

6 дней назад

⚡ Откликнуться на hh.ru

Разработчик Indusoft

Сейчас приглашаем вас в команду на роль Разработчика Indusoft Какие задачи предстоят: Проектирование, ...

Можно удаленно
Полный день
Опыт от 1 года

Axenix (ранее Accenture)

Москва

8 дней назад

⚡ Откликнуться на hh.ru

React разработчик

DUC Technologies – это быстроразвивающаяся консалтинговая компания в сфере IT, специализирующаяся на решениях в области управления данными, AI и прикладной Python-разработки. Мы уже более 3 лет на рынке IT и за это время зарекомендовали себя как наде...

Можно удаленно
Полный день
Опыт от 1 года

ДЮК Технологии

Москва

8 дней назад

⚡ Откликнуться на hh.ru

Разработчик ELMA (Junior+)

Обязанности: Разработка и поддержка бизнес-процессов и low-code приложений на платформе ELMA 365. Создание и оптимизация сложных сценариев, виджетов и интеграций с внешними системами. Участие в проектировании архитектуры решений и написании техническ...

Можно удаленно
Подработка
Опыт от 1 года

РЕХАУ

Москва

6 дней назад

⚡ Откликнуться на hh.ru

Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer

По договоренности

Задача роли (что нужно сделать)

Чем будешь заниматься

Эта вакансия для тебя, если ты

Требования (обязательно)

Будет плюсом

Пример ожидаемого результата через 2–4 недели работы (ориентир)

Условия

Похожие вакансии

Fullstack-разработчик

Разработчик 1С

PHP-разработчик

Разработчик Indusoft

React разработчик

Разработчик ELMA (Junior+)

Вакансия в подборках

Похожие вакансии