Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer

По договоренности

  • Горьковская
  • Невский проспект
  • Сенная площадь

Мы — продуктовая команда, делаем приложения для конечных пользователей и активно используем ML. Растём быстро: любим новые технологии, но понимаем, что результат — это ещё и регулярная “рутинная” инженерная работа.

Сейчас у нас 10 продуктов дающие порядка 1 000 000 установок ежемесячно:

  • Saby — Baby monitor

  • Visory — Security camera

  • Imgit — AI art generator

Мы находимся в Испании, работать можно удалённо из любой точки мира, в удобное время. Важен результат и ответственность.

Задача роли (что нужно сделать)

Твоя основная миссия — построить и поддерживать надёжный пайплайн массового сбора отзывов/комментариев из:

  • Reddit (посты + треды комментариев, поиск по сабреддитам/ключевым словам, фильтры по времени/популярности)

  • Trustpilot (страницы компаний/продуктов, отзывы, рейтинги, метаданные)

Дальше эти данные будут использоваться, чтобы:

выделять боли пользователей в существующих приложениях/сервисах

находить ниши, где мы можем быстро делать MVP и забирать спрос

Чем будешь заниматься

  • Разработка парсеров и/или интеграций с API (где возможно) для Reddit и Trustpilot

  • Массовый сбор данных: миллионы сущностей (посты/комменты/отзывы) с контролем качества

  • Нормализация данных: единые схемы, дедупликация, языковые поля, таймстемпы, ссылки на источники

  • Построение пайплайна: планировщик, очереди, ретраи, обработка ошибок, мониторинг

  • Антифрод/антибан устойчивость: лимиты, ротации, корректное соблюдение правил платформ

  • Экспорт в хранилище (SQL/NoSQL/BigQuery/S3 — выберем оптимально)

  • Базовые аналитические выгрузки для продукта/ресерча: “топ-боли”, частотность, кластеры по темам (можно совместно с ML)

Эта вакансия для тебя, если ты

  • Умеешь самостоятельно доводить задачу до работающей системы, а не “скрипта на один запуск”

  • Любишь копаться в данных и строить системы сбора “под нагрузку”

  • Понимаешь, что парсер = продукт, которому нужны тесты, мониторинг и поддержка

  • Ок с удалёнкой и работой на результат (без микроменеджмента)

Требования (обязательно)

  • Опыт разработки парсеров / скрейперов / data ingestion систем в проде для Reddit или Trustpilot

  • Умение проектировать устойчивый сбор данных:

    • rate limits, backoff/retry, очереди, таймауты, прокси/ротации (если нужно)

    • восстановление после падений, идемпотентность, дедупликация

  • Умение работать с:

    • HTTP, cookies/sessions, pagination, динамическими страницами

    • парсингом HTML (CSS selectors/XPath) и JSON

  • Знание одного из стеков:

    • Python или Node.js

  • Умение писать понятный код, покрывать критичное тестами и логами

Будет плюсом

  • Опыт построения ETL:

    • Airflow/Prefect/Temporal

    • Kafka/RabbitMQ/SQS

  • Опыт с хранилищами и аналитикой:

    • Postgres, ClickHouse, BigQuery, Elasticsearch

  • Опыт с NLP-задачами “pain mining”:

    • тематическое моделирование, кластеризация, embeddings

Пример ожидаемого результата через 2–4 недели работы (ориентир)

  • Reddit: сбор по списку сабреддитов и ключевиков, треды комментариев, обновления “инкрементально”

  • Trustpilot: сбор отзывов по списку компаний/категорий, стабильная пагинация, контроль пропусков

  • Хранилище + схема + базовая витрина данных

  • Метрики: сколько собрано, процент ошибок, пропуски/дубликаты, скорость

Условия

  • Удалённая работа, фулл-тайм, гибкий график

  • Чёткие задачи и ожидаемый результат, адекватная оценка времени

  • Интересные задачи на стыке данных, автоматизации и продуктового ресерча

  • Официальное оформление


Адрес: Россия, Санкт-Петербург, 7-я линия Васильевского острова, 36
Показать на большой карте

Поделиться:

Опубликована 5 часов назад

Похожие вакансии

Ищем Android-разработчика в проект Simpla — мобильное приложение, которое сочетает в себе спортивный ...
  • Можно удаленно
  • Полный день
  • Опыт от 1 года
Логотип компании Simple RunSimple Run
  • Санкт-Петербург
6 часов назад
Приглашаем в команду ABAP Разработчика.
  • Можно удаленно
  • Полный день
  • Опыт от 1 года
Логотип компании Axenix (ранее Accenture)Axenix (ранее Accenture)
  • Санкт-Петербург
день назад
от 104 000 ₽
В нашей команде есть разработчики, 3D-художники и специалисты по инновационным технологиям, работающие ... ModelViewer), опыт 3d моделирования, WordPress, навыки парсинга данных с сайтов; Умение переводить с языка разработчика ...
  • Можно удаленно
  • Полный день
  • Опыт от 1 года
Логотип компании Фонд Росконгресс подразделение в г. Санкт-ПетербургеФонд Росконгресс подразделение в г. Санкт-Петербурге
  • Санкт-Петербург
2 дня назад
40 000 - 80 000 ₽
Мы растём, поэтому ищем Fullstack разработчика. ... инструкциями и вхождение в проекты каждый рабочий день: утренний планнинг с менеджерами, вечерний стендап с разработчиками ...
  • Можно удаленно
  • Полный день
  • Опыт от 1 года
Логотип компании Компания А25Компания А25
  • Санкт-Петербург
2 дня назад
80 000 ₽
Мы ищем методиста-разработчика учебных материалов, который будет создавать и развивать библиотеку материалов ...
  • Можно удаленно
  • Полный день
  • Опыт от 1 года
Логотип компании Университет ИТМОУниверситет ИТМО
  • Санкт-Петербург
день назад
120 000 - 200 000 ₽
Выше средней на 24%
Наша компания занимается разработкой и развитием современных систем в области планирования и предиктивного анализа для коммерческих. Нам доверяют крупнейшие компании из самых разных отраслей. Благодаря нашей позитивной корпоративной культуре, построе...
  • Можно удаленно
  • Полный день
  • Опыт от 1 года
Логотип компании ТИМПЛАНТИМПЛАН
  • Санкт-Петербург
2 дня назад

Похожие вакансии

Логотип компании Axenix (ранее Accenture)Axenix (ранее Accenture)
от 104 000 ₽
Логотип компании Фонд Росконгресс подразделение в г. Санкт-ПетербургеФонд Росконгресс подразделение в г. Санкт-Петербурге
40 000 - 80 000 ₽
Логотип компании Компания А25Компания А25
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.