Инженер по высокочастотному извлечению данных (HFT-driven Web Scraping)
По договоренности
Кого ищем
Мы ищем специалиста по высокопроизводительным системам и низколатентному сетевому взаимодействию, который умеет проектировать надежные механизмы получения данных в условиях ограниченных временных окон, высокой конкуренции за ресурсы и нестабильной доступности серверной инфраструктуры.
Для нас важен не просто опыт написания интеграций или скриптов, а инженерный подход к задачам, где критичны точность таймингов, минимизация сетевых задержек, устойчивость к перегрузкам и воспроизводимость результата. Релевантный опыт может быть связан с высоконагруженными системами, низколатентными интеграциями, AdTech/RTB, игровыми backend-сервисами, системами реального времени или иными средами, где существенную роль играют миллисекунды, поведение сети и архитектура клиент-серверного взаимодействия.
Контекст задачи
Мы работаем с data-driven сценариями на крупных e-commerce платформах, где часть данных доступна через внутренние web-интерфейсы в рамках авторизованной пользовательской сессии. На практике это означает необходимость:
-
точно воспроизводить механику клиентских запросов;
-
минимизировать задержки на сетевом и прикладном уровне;
-
обеспечивать устойчивое получение данных в момент пиковой нагрузки;
-
строить решения, способные корректно работать в условиях перегруженных или нестабильных серверов.
Основные задачи
Оптимизация сетевого пути и клиентской инфраструктуры
Снижение latency, анализ TTFB / RTT, подбор оптимальной инфраструктуры и конфигурации окружения с учетом географии и маршрута до целевого ресурса.
Точная синхронизация по времени
Построение механики отправки запросов в строго заданные моменты времени, включая синхронизацию с эталонным временем, снижение влияния jitter, event loop lag и других факторов, влияющих на точность выполнения.
Управление соединениями и состоянием клиента
Проектирование стратегий повторного использования соединений, уменьшение накладных расходов на установку сессий, оптимизация транспортного уровня и поведения HTTP-клиента в критических окнах.
Проектирование устойчивых стратегий запросов
Разработка надежной логики работы в условиях перегрузки, таймаутов, отказов и ограничений по частоте обращений: ретраи, backoff, очереди, контроль конкурентности, приоритезация вызовов, кэширование и инкрементальные выгрузки.
Анализ клиентского web-приложения
Исследование DevTools / HAR / Network / JS bundle для понимания механики формирования запросов, параметров сессии, временных токенов, обязательных заголовков и других клиентских артефактов, необходимых для корректного воспроизведения вызовов в рамках авторизованной сессии.
Разработка производительных клиентов
Создание прикладных клиентов и утилит на Python / Go / Rust / C++ для воспроизведения запросов, получения данных и последующей передачи их в аналитический контур.
Требования к кандидату
-
Сильное инженерное мышление в задачах, где важны latency, timing accuracy и reliability.
-
Глубокое понимание сетевого взаимодействия: TCP/IP, TLS, HTTP/1.1, HTTP/2, keep-alive, multiplexing, connection reuse.
-
Опыт проектирования низколатентных или высоконагруженных систем.
-
Практический опыт анализа браузерного трафика через DevTools, HAR, Network, Sources.
-
Уверенное понимание механики авторизованных web-сессий: cookies, CSRF, session-bound токены, временные ключи, клиентские заголовки.
-
Опыт разработки производительных HTTP-клиентов и сервисов на Python / Go / Rust / C++.
-
Навыки профилирования и диагностики: тайминги, сетевой jitter, таймауты, bottleneck analysis.
-
Умение разбирать клиентский JavaScript / TypeScript-код и находить логику формирования запросов и вспомогательных параметров.
-
Опыт построения fault-tolerant логики: retries, backoff, circuit breakers, rate-limit-aware execution, очереди задач.
Желателен опыт
-
AdTech / RTB
-
игровые backend-системы
-
системы реального времени
-
высоконагруженные интеграции
-
low-latency infrastructure
-
профилирование сетевого трафика и производительности
-
Wireshark / tcpdump / pcap-анализ
-
асинхронные пайплайны и очереди
-
ClickHouse / BigQuery / ETL-контуры
Мы особенно оценим
-
Способность мыслить на уровне «где теряются миллисекунды и почему».
-
Умение не просто писать код, а проектировать всю цепочку получения данных: от времени отправки запроса и состояния соединения до надежной записи результата.
-
Практический опыт работы с нестабильными внешними системами, где нужно добиваться максимальной полноты и устойчивости сбора без лишней нагрузки и без нарушения допустимых ограничений.
Формат работы
-
Part-time: 10–20 часов в неделю
-
Спринты по 1–2 недели
-
Асинхронная работа + короткие синки по необходимости
Условия
-
Сложные инженерные задачи на стыке network, performance, browser internals и data extraction
-
Высокая автономность и влияние на архитектурные решения
-
Оплата: фикс за спринт, обсуждается по уровню экспертизы и ожидаемому результату
Опубликована 7 часов назад
Похожие вакансии
- Можно удаленно
- Полный день
- Опыт от 5 лет
- Челябинск
- Можно удаленно
- Частичная занятость
- Опыт от 5 лет
- Челябинск