- Работа в Нижнем Новгороде
- Удаленно
- Инженер
- Voice AI-инженер
Voice AI-инженер
По договоренности
Ищем Voice AI-инженера, который выжмет максимум из ASR / LLM / TTS-стека и VoIP-телефонии: снизит latency и cost звонков, прокачает качество речи, будет строить real-time пайплайны поверх LLM. Готовы дать много свободы и прямое влияние на продукт.
О компании FoodTech × AI-стартап: через Telegram и WhatsApp гости бронируют столики. Рабочая технология, уже в продакшн, есть партнеры.
Обязанности
● Оптимизация ASR / TTS
○ выбор движков для ASR и TTS (API и опенсорс) на разных языках
○ тонкая настройка параметров, кастомные голосовые модели / speaker adaptation
○ снижение стоимости минут и токенов, компрессия, кэширование аудио
● Снижение задержек
○ стриминговый ASR, пакетирование запросов
○ оптимизация сетевых настроек и VoIP-RTT
● VoIP-интеграции
○ Работа с SIP/WebRTC, оптимизация текущей инфраструктуры
○ разработка и поддержка скриптов звонков (Python)
● Многопоточность и real-time backend
○ асинхронные очереди, worker pools, нагрузочное тестирование
○ профилирование и масштабирование Kubernetes / serverless
● Метрики и A/B-эксперименты
○ реал-тайм дашборды: MOS, latency, cost per call
○ эксперименты над голосами и параметрами TTS
Требования
● 3+ лет разработки на Python
● продакшн-опыт с ASR и TTS API
● знание основ цифровой речи: sampling, VAD, codecs, diarization
● сильный бэкграунд в VoIP (SIP, RTP, WebRTC) и сетевых протоколах
● опыт многопоточной / асинхронной обработки аудио-стримов
● DevOps-навыки: Docker, CI/CD, мониторинг (Grafana/Prometheus)
● английский ≥ B1 для техдоков и саппорта вендоров
Будет плюсом
● кастомизация open-source TTS (FastSpeech, XTTS) или ASR (Whisper, NeMo)
● знание HoReCa-процессов и юридических требований к звонкам (GDPR, PCI)
Условия работы
● удалённо, гибкий график 35–40 ч/нед
● конкурентная ставка + бонус за снижение стоимости и latency
● минимальная бюрократия, реальное влияние на продукт
О компании FoodTech × AI-стартап: через Telegram и WhatsApp гости бронируют столики. Рабочая технология, уже в продакшн, есть партнеры.
Обязанности
● Оптимизация ASR / TTS
○ выбор движков для ASR и TTS (API и опенсорс) на разных языках
○ тонкая настройка параметров, кастомные голосовые модели / speaker adaptation
○ снижение стоимости минут и токенов, компрессия, кэширование аудио
● Снижение задержек
○ стриминговый ASR, пакетирование запросов
○ оптимизация сетевых настроек и VoIP-RTT
● VoIP-интеграции
○ Работа с SIP/WebRTC, оптимизация текущей инфраструктуры
○ разработка и поддержка скриптов звонков (Python)
● Многопоточность и real-time backend
○ асинхронные очереди, worker pools, нагрузочное тестирование
○ профилирование и масштабирование Kubernetes / serverless
● Метрики и A/B-эксперименты
○ реал-тайм дашборды: MOS, latency, cost per call
○ эксперименты над голосами и параметрами TTS
Требования
● 3+ лет разработки на Python
● продакшн-опыт с ASR и TTS API
● знание основ цифровой речи: sampling, VAD, codecs, diarization
● сильный бэкграунд в VoIP (SIP, RTP, WebRTC) и сетевых протоколах
● опыт многопоточной / асинхронной обработки аудио-стримов
● DevOps-навыки: Docker, CI/CD, мониторинг (Grafana/Prometheus)
● английский ≥ B1 для техдоков и саппорта вендоров
Будет плюсом
● кастомизация open-source TTS (FastSpeech, XTTS) или ASR (Whisper, NeMo)
● знание HoReCa-процессов и юридических требований к звонкам (GDPR, PCI)
Условия работы
● удалённо, гибкий график 35–40 ч/нед
● конкурентная ставка + бонус за снижение стоимости и latency
● минимальная бюрократия, реальное влияние на продукт
Поделиться:
Опубликована 2 дня назад