Есть крутой опенсорсный text-2-speech (TTS) проект Coqui.

Есть крутой опенсорсный text-2-speech (TTS) проект Coqui. У них в наличии имеется сайт, на котором много голосовых пресетов, есть настройка скорости произношения, легко клонировать речь и генерить на её основе фразы на разных языках. Также у них репо на гитхабе Coqui TTS, которое используется разными проектами, как база для работы голосом. Тут есть поддержка Bark для клонирования, предобученные модели на 1100 языков, Tortoise для быстрого инференса, API, и смешивание голосов. Можно натренить модель на своих данных, если нужно. Однако эта модель по качеству генераций уступает той, что на сайте — XTTS, которая после пробника перекрыта платкой. Теперь они выложили веса XTTS в открытый доступ. Что имеем: * клонирование голоса по 3 секундам (больше-лучше) * генерация клонированным голосом на по тексту разных языках * качество в 24khz Camenduru уже запилил колаб (). Заодно вот модель Wav2Lip () для липсинка... Собираем в режиме лего опенсорсный Heygen. Сайт Coqui () Демо () (HF) Демо () (колаб) Гитхаб () Веса на HF ()
Back to Top