- Работа в Москве
- Удаленно
- Senior data engineer
- Senior Data Engineer (Genomic Data Platform)
Senior Data Engineer (Genomic Data Platform)
По договоренности
- Марксистская
- Третьяковская
- Новокузнецкая
О компании
Кситест — первый в России сервис для геномной селекции коров, овец и свиней. С помощью генетического теста мы предсказываем продуктивность и здоровье животного.
Мы создаём технологическую платформу для геномной селекции животных.
Наша система объединяет фенотипические и генотипические данные, рассчитывает EBV (Estimated Breeding Values), а затем формирует аналитику и рекомендации по выбраковке и подбору пар.
Мы работаем на стыке биоинформатики, машинного обучения и высокопроизводительных систем. Команда - небольшой R&D-отдел, где инженеры напрямую влияют на архитектурные решения, а код быстро доходит до продакшена.
Мы ищем опытного Data Engineer, который возьмёт на себя ключевую часть инфраструктуры данных - в первую очередь рефакторинг и перенос пайплайна генотипов на ClickHouse с распределённым хранением.
Далее ты будешь участвовать в развитии архитектуры всей аналитической платформы: от хранения генотипов до расчётов EBV и визуализации результатов.
Мы ищем человека, который со временем сможет стать техническим ядром команды, на которого можно опереться при проектировании, развитии решений и взаимодействии с другими подразделениями.
Обязанности:
-
Рефакторинг и миграция пайплайна генотипов на ClickHouse
-
Проектирование распределённого хранилища и ETL-архитектуры
-
Оптимизация производительности и надёжности пайплайнов
-
Разработка метрик, мониторинга и тестов для больших данных
-
Участие в планировании архитектуры и развитии R&D-продукта
-
Отличное знание ClickHouse: MergeTree, партиционирование, репликация, оптимизация запросов
-
Опыт проектирования распределённых систем хранения данных
-
Python (pandas, asyncio, multiprocessing, clickhouse-driver)
-
Понимание ETL-оркестрации: Airflow, Prefect или аналоги
-
Опыт работы с PostgreSQL, миграции данных и оптимизации
-
Контейнеризация и деплой: Docker, docker-compose, базовые знания Kubernetes
-
Понимание работы с большими объёмами данных
Будет плюсом :
-
Опыт работы с геномными данными (VCF, PLINK, SNP-матрицы)
-
Apache Spark / Kafka / Redis
-
Опыт с S3-совместимыми хранилищами
-
Знание методов машинного обучения для биологических данных
Личные качества:
-
Архитектурное мышление и внимание к деталям
-
Умение писать чистый, производительный и поддерживаемый код
-
Готовность брать ответственность за технические решения
-
Гибкость, способность быстро разбираться в предметной области
Опыт:
-
3+ лет в Data Engineering или Backend-разработке
-
2+ года с ClickHouse или другой OLAP-СУБД
-
Опыт работы с распределёнными системами и большими данными
-
Формат: гибрид / удалённо
-
Полная занятость
-
Работа в тесной связке с научной и инженерной командами
-
Возможность участия в конференциях и развитии открытых инструментов для геномной селекции
- Зарплата по результатам собеседования
Опубликована 10 дней назад