Дата-сайентист (Data Collection Engineer, Web Scraping / Automation)

от 100 000 ₽


О проекте
Мы создаём B2B data-платформу для глубокой аналитики компаний. Наш продукт агрегирует данные из сотен открытых источников и преобразует их в ценные бизнес-сигналы: найм ключевых сотрудников, смена технологического стека, инвестиционные раунды, запуск новых продуктов и другие триггеры роста.
Наша цель — предоставлять Sales-командам, инвесторам и аналитикам инструмент для мгновенного выявления перспективных компаний на стадии активного роста.

Чем предстоит заниматься:

  • Проектирование и разработка пайплайнов для сбора данных о компаниях.

  • Настройка парсинга (web-scraping) сайтов, каталогов и публичных реестров.

  • Интеграция данных через внешние API.

  • Очистка, нормализация и структурирование необработанных данных.

  • Дедупликация компаний и умное объединение записей из множества источников.

  • Автоматизация процессов регулярного обновления данных.

  • Подготовка структурированных датасетов для аналитики и машинного обучения.

Источники данных
В работе мы используем открытые данные:

  • Корпоративные сайты и лендинги

  • Страницы вакансий и карьерные порталы

  • Бизнес-каталоги и маркетплейсы

  • Стартап-базы (Crunchbase, AngelList и др.)

  • Технологические данные сайтов (Wappalyzer, BuiltWith)

  • Публичные реестры юридических лиц

Ключевые требования:

  • Уверенный опыт веб-парсинга (Web Scraping) любой сложности.

  • Глубокое знание Python и стека инструментов: requests, Scrapy, Playwright/Selenium.

  • Опыт интеграции и работы с REST API / GraphQL.

  • Понимание устройства реляционных и NoSQL баз данных.

  • Знание принципов построения надежных Data Pipelines (ETL/ELT).

Будет большим плюсом:

  • Опыт OSINT / Data Research (поиск и верификация данных).

  • Навыки работы с B2B-данными (понимание структуры юрлиц, холдингов, ИНН и т.д.).

  • Опыт автоматизации пайплайнов (Apache Airflow, Luigi или аналоги).

Условия работы:

  • Полная удаленка (Remote).

  • Проектная занятость с возможностью перехода в долгосрочное сотрудничество.

  • Гибкий график: мы ориентируемся на результат, а не на часы в кресле.

Сравнение со средней зарплатой в похожих вакансиях:

124k

180k

92k

150k

224k


Поделиться:

Опубликована день назад

Похожие вакансии

Сбор и обновление рыночных аналогов по продаже и аренде с фиксацией источников и дат.
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Виво МаркетВиво Маркет
  • Москва
час назад
... от 3-х и более, вложенные запросы, фильтрация по нескольким полям, умение работать с разным форматом дат ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании ИЦ АЙ-ТЕКОИЦ АЙ-ТЕКО
  • Москва
9 дней назад
... трех и более, вложенные запросы, фильтрация по нескольким полям, умение работать с разным форматом дат ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Москва
час назад
до 120 000 ₽
Выше средней на 9%
... людей:) ✅В ваши задачи будет входить: • Подтверждение входящих заказов: проверка цен, условий поставки (дат ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании ВefitВefit
  • Москва
13 дней назад
... трех и более, вложенные запросы, фильтрация по нескольким полям, умение работать с разным форматом дат ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании AstonAston
  • Москва
9 дней назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.