Инженер данных Data Engineer / ML-архитектор

от 300 000 ₽

Выше средней на 20%

Мы — R&D лаборатория компании MagnitMedia (15+ лет на рынке IT), работающая в режиме внутреннего стартапа (Skunkworks). Мы выделены в независимый контур с собственным бюджетом и карт-бланшем от владельца бизнеса, чтобы создавать продукты нового поколения без оглядки на корпоративные процессы.

Мы создаём Overlay AI — систему памяти и навигации для искусственного интеллекта нового поколения. Это не очередная GPT-обёртка. В нашей архитектуре LLM выступает в роли интеллектуального роутера, тогда как основа системы — структурированные графы знаний, внешняя память и глубокая семантическая обработка экспертных знаний.

Ищем инженера, которому интересно работать на стыке данных, смыслов и архитектуры ИИ. Ваша основная задача — создавать и развивать «топливо» для нашего ИИ.


Обязанности:
  • Разработка интеллектуальных парсеров под неструктурированные форматы данных с написанием собственных fallback-режимов.

  • Построение ETL-пайплайнов полного цикла: сбор → очистка → чанкинг → векторизация → индексация → построение графа.
  • Написание промптов и интеграция вызовов к локальным (vLLM, llama.cpp 2.) и облачным LLM для извлечения сущностей, связей и тезисов из сырого текста.
  • Администрирование и наполнение векторных (Qdrant, Milvus и др.) и графовых (Neo4j и др.) баз данных.
  • Создание датасетов для оценки качества парсинга и fine-tuning моделей.
  • Базовая работа с инфраструктурой: запуск моделей в Docker-контейнерах на Ubuntu-серверах.
Требования:
  • Высшее техническое образование.
  • Уверенное владение Python и опыт построения ETL / data-пайплайнов.

  • Опыт работы или интерес к LLM, RAG-архитектурам, мультиагентным системам, NLP.

  • Навыки парсинга данных (веб, API, документы) и обработки ошибок.

  • Практический опыт работы с векторными базами данных и эмбеддингами.

  • Devops-навыки, опыт настройки CI/CD.

  • Уверенная работа в Linux-среде, базовые навыки Docker.

  • Будет плюсом:

  • Опыт работы с Airflow / LangChain / LlamaIndex или аналогами.

  • Интерес к архитектуре интеллектуальных систем и работе в небольших командах.

  • Опыт работы в стартапах или над высоконагруженными проектами.

Условия:
  • Проектная работа;
  • Полностью удалённый формат работы;
  • Гибкий график с фокусом на результат;
  • Возможность долгосрочного сотрудничества и роста роли вместе с развитием продукта.

    *Чтобы мы поняли, что вы внимательно прочитали вакансию и говорите с нами на одном языке, прикрепите к отклику ответы на 3 коротких вопроса:

    1. Опишите свой самый сложный парсер или ETL-пайплайн. Что было на входе, что на выходе, какие проблемы решали (масштаб, грязные данные, обход защит)?
    2. Был ли у вас опыт создания графовых (Knowledge Graph) или векторных баз данных / создания обучающих датасетов? Кратко опишите его.
    3. Опишите самую сложную «железную» или инфраструктурную проблему, которую вам приходилось решать (например, падение серверов, проблемы с VRAM при запуске моделей, воскрешение Docker).

Сравнение со средней зарплатой в похожих вакансиях:

180k

300k

97k

250k

417k


Поделиться:

Опубликована 21 день назад

Похожие вакансии

... данных с Qlik Replicate (CDC, стриминг в Kafka/Redshift); настройка источников (SQL, NoSQL) и целей (data ... Требования: опыт в data engineering от 3-х лет; опыт с Qlik Replicate/Talend от 1 года; опыт с SQL, Java ... /Python; опыт с data modeling (star schema); опыт full lifecycle ETL.
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании IBSIBS
  • Москва
2 дня назад
до 225 000 ₽
Обязанности: Взаимодействовать со смежными командами и управлять своим беклогом в рамках спринта Писать скрипты, техническую документацию, ставить задачи на смежные команды Заполнять реестры интерфейсов и регламентировать процессы Проект поддержки ст...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Outlines TechnologiesOutlines Technologies
  • Москва
3 дня назад
от 230 000 ₽
Мы ищем middle+ data-инженера и data аналитика на банковский проект Обязанности: Проектировать и развивать ... DWH и ETL-ландшафт под большие объёмы данных Разрабатывать и оптимизировать data pipeline’ы на Apache ... Data Vault 2.0) Настраивать оркестрацию (Apache Airflow, dbt и др.) ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Пятый ЭлементПятый Элемент
  • Москва
3 дня назад
Какие знания и навыки нам важны: Опыт работы Data Engineer от 2 лет. ... Будет плюсом: Data Vault 2.0, оптимизация запросов, Data Lake / DWH, репликация/шардинг, знакомство с ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании ГКУ ИнфогородГКУ Инфогород
  • Москва
3 дня назад
Практика Applied Intelligence включает консультационные услуги по Data-driven трансформации, услуги по ... разработке корпоративных хранилищ и фабрик данных, включая Big Data / Data Lakes, автоматизации отчетности ... Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари Работать в связке с Data ...
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Axenix (ранее Accenture)Axenix (ранее Accenture)
  • Москва
3 дня назад
Требования: Опыт работы в роли Data Engineer или Analytics Engineer от 2-3 лет.
  • Можно удаленно
  • Полный день
  • Опыт от 3 лет
Логотип компании Coral ClubCoral Club
  • Москва
4 дня назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.