LLM инженер

По договоренности

  • Динамо
  • Белорусская
  • Маяковская

О проекте:
Мы создаем интуитивно понятное и современное веб-приложение, которым ежедневно пользуются клиенты и юристы. Ваша задача — помочь нам сделать его еще лучше, быстрее и удобнее.

1. Основной стек

  • Python & Deep Learning: Знание Python, опыт работы с PyTorch и экосистемой Hugging Face (Transformers, Datasets, Tokenizers).
  • Опыт Fine-Tuning (SFT): Умение дообучать модели (Llama 3, Mistral, Qwen) на специфических юридических текстах с использованием методов эффективного обучения (PEFT, LoRA/QLoRA).
  • Продвинутый RAG :
    • Построение пайплайнов поиска по базе знаний.
    • Понимание того, как работает Hybrid Search (векторный + полнотекстовый поиск).
    • Опыт работы с Reranking-моделями (например, BGE-Reranker, Cohere) для повышения релевантности найденных документов.
  • Векторные базы данных: Опыт работы с Qdrant, Weaviate, Milvus или Elasticsearch/OpenSearch.

2. Работа с данными и контекстом

  • Processing Long Context: Понимание проблем длинного контекста (Lost-in-the-Middle phenomenon) и умение работать с длинными документами (chunking strategies, sliding windows).
  • Data Preparation: Навыки очистки и подготовки "грязных" данных (парсинг PDF, работа с OCR-текстом, выделение структуры договора).
  • Evaluation: Умение построить систему оценки качества ответов. Не просто с использованием метрик и фреймворков (Ragas, DeepEval) для проверки фактической точности (Fact Checking).

3. Настройка парсинга и баз знаний

  • Понимание инструментов для извлечения данных из сложных юридических документов (многоколонная верстка, скан-копии, таблицы, рукописные подписи). Важно не просто извлечь текст, но и сохранить его семантическую структуру (заголовки, сноски, пункты договора).
  • Реализация продвинутых стратегий нарезки текста, чтобы не терять контекст конкретного пункта договора в общей массе текста.
  • Настройка автоматического извлечения метаданных (дата подписания, тип документа, сумма договора) Использование этих метаданных как в векторной базе данных для реализации гибридной фильтрации.
  • Будет большим плюсом опыт построения графов знаний. Умение связывать разрозненные документы через общие сущности (например, связывать Допсоглашение с Основным договором через ID клиента), улучшая качество RAG.
  • Опыт построения надежных и воспроизводимых пайплайнов обновления базы знаний. Обеспечение версионирования данных и обработки ошибок при парсинге.

Ключевые фокусы роли

Advanced RAG: Чтобы модель находила точные статьи закона, а не выдумывала их.

Domain Adaptation: Дообучение модели понимать юридический канцелярит и структуру документов.

Data Security: Развертывание моделей в закрытом контуре , чтобы данные клиентов не уходили в публичные API.


Адрес: Россия, Москва, Беговая улица, 2
Показать на большой карте

Поделиться:

Опубликована месяц назад

Похожие вакансии

от 135 000 ₽
Компания «Дрон Солюшнс» занимается разработкой и производством беспилотных авиационных систем (БАС) различной направленности, а также систем компьютерного зрения Искусственного Интеллекта. Область применения наших БАС: мониторинг линейных и площадных...
  • Полный день
  • Опыт от 3 лет
Логотип компании Дрон СолюшнсДрон Солюшнс
  • Москва
день назад
Приглашаем на работу сетевого инженера. ЗАО "НОРСИ-ТРАНС" является аккредитованной организацией, осуществляющей деятельность в области информационных технологий. Мы занимаемся разработкой и внедрением информационно-аналитических систем. Реализуем имп...
  • Полный день
  • Опыт от 3 лет
Логотип компании НОРСИ-ТРАНСНОРСИ-ТРАНС
  • Москва
день назад
Мы — динамично развивающаяся производственная компания в сфере электроники, специализирующаяся на создании современных мобильных устройств. Наши проекты охватывают полный цикл от идеи до серийного производства. Основные продукты и бренды компании: пл...
  • Полный день
  • Опыт от 3 лет
Логотип компании БайтЭргБайтЭрг
  • Москва
день назад
Чем предстоит заниматься: Участие в проектировании и реализации новых и модернизации существующих комплексов ИТ инфраструкуры: -базовые ИТ сервисы; -виртуализация; -системы резервного копирования; -СУБД. Пусконаладкой системного (инфраструктурного) П...
  • Полный день
  • Опыт от 3 лет
Логотип компании СевентекСевентек
  • Москва
19 часов назад
180 000 ₽
Выше средней на 12%
Нанимающая компания на рынке строительства с 2003 года. Компания осуществляет полный спектр работ, связанных с возведением недвижимости и дорожным строительством – от функций генподрядчика до услуг по дизайну и ремонту помещений. В связи с расширение...
  • Полный день
  • Опыт от 3 лет
Логотип компании Территория кадровТерритория кадров
  • Москва
день назад
180 000 - 200 000 ₽
Выше средней на 18%
"СоюзДонСтрой" – ведущая компания по проектированию и строительству промышленных инженерных сетей по всей России и странах СНГ. Занимаем лидирующие позиции в области современной инженерии и являемся одним из ведущих исполнителей в рамках ЕРС – контра...
  • Полный день
  • Опыт от 3 лет
Логотип компании СоюзДонСтройСоюзДонСтрой
  • Москва
день назад
Мы обрабатываем данные посетителей и используем куки в соответствии с политикой конфиденциальности.