Senior ML Engineer (TTS)
650 000 - 900 000 ₽
Добрый день!
Компания Sasha AI - текущие резиденты Сколково, пионер в разработке голосовых AI-агентов для бизнеса. Мы развиваем лидогенерационную платформу, которая позволяет компаниям за 20 минут запустить искусственный интеллект, способный генерировать лидов работая с клиентской базой по телефону. Наши AI-агенты уже помогают таким компаниям как МТС, Т-Банк, Синергия увеличивать выручку без найма сотрудников.
За последний год мы выросли в 5 раз и достигнем оборота в 300 млн рублей в 2026 году.
Наша маленькая цель - сделать технологию простой, окупаемой и доступной каждому крупному бизнесу в России.
Наша большая цель - за 10 лет построить монополиста, ассоциирующегося с искусственным интеллектом в России.
Сейчас ищем ML-инженера, который будет развивать у нас TTS — собственный стек синтеза речи, быстрый и естественный, чтобы звучал неотличимо от живого оператора.
Как у нас все устроено:
- маленькая команда, общаемся в тг и на созвонах, иногда встречаемся офлайн;
- работать можно в удобное время
- задачи короткие: гипотеза → эксперимент → метрики → прод;
- продукт живой, результат своей работы слышно в реальных звонках уже через пару дней;
- решения принимаем быстро, без согласований на три недели;
- если модель обогнала прод — катим.
Данных с реальных звонков много, разметка и подсчёт метрик постепенно автоматизируются. Есть бюджет на GPU и эксперименты.
Обязанности:
- улучшать модели синтеза;
- обгонять текущий прод по метрикам (MOS, CMOS, SBS, латенси);
- помогать внедрять модели в рантайм;
- снижать TTFB и общую задержку — для телефонии это критично;
- заниматься проектами: voice cloning, управление интонациями, эмоциями, стриминг, low-resource;
- фантазировать, экспериментировать, читать статьи;
- рассказывать о найденном команде и в блоге.
Требования:
- python, алгоритмы, математика;
- знания в DL, особенно про звук;
- опыт обучения моделей для прода;
- понимание современных TTS-архитектур (FastSpeech, VALL-E, XTTS, F5, CosyVoice и т.п.);
- кругозор (nlp, лингвистика, фонетика, DSP — всё, что имеет отношение к речи).
Будет плюсом:
- c++;
- опыт оптимизации инференса (ONNX, TensorRT, квантизация, стриминг);
- опыт с реалтайм-аудио и телефонией (8 kHz, кодеки);
- публикации, pet-проекты, open-source.
Условия:
- задачи, по которым в рунете мало кто имеет опыт;
- небольшая команда без бюрократии;
- фидбек и возможность увидеть результаты своей работы в продукте сразу;
- оформление по ТК РФ, ИП или самозанятость — как удобно;
- удалёнка, гибкий график;
- зарплата обсуждается на интервью.
Если откликается — напишите пару слов о себе и приложите резюме. Будет здорово увидеть ссылки на демо синтеза, который вы обучали, GitHub или статьи.
Сравнение со средней зарплатой в похожих вакансиях:
150k
250k
97k
379k
Опубликована 13 часов назад
Похожие вакансии
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва
- Можно удаленно
- Полный день
- Опыт от 3 лет
- Москва