Qwen3-TTS: otevřený AI model pro převod textu na řeč
Tým Qwen z Alibaba Cloud představil Qwen3-TTS, novou generaci open-source modelů pro převod textu na přirozeně znějící řeč. Model je volně dostupný a může být použit pro různé projekty včetně hlasových asistentů, audioknih nebo multimediálních aplikací.
Qwen3-TTS podporuje 10 jazyků, včetně angličtiny, čínštiny, japonštiny, korejštiny, němčiny, francouzštiny či španělštiny. Model se zaměřuje na přirozenou intonaci a rytmus řeči, přičemž je vhodný i pro streamovaný hlas v reálném čase.
Součástí jsou také nástroje pro tvorbu a klonování hlasů. Vyzkoušet je lze prostřednictvím interaktivního dema na Hugging Face, kde je možné nahrát vlastní hlas pomocí mikrofonu a nechat model vygenerovat libovolný text ve vašem hlasu.
Qwen3-TTS představuje významný krok v otevřených TTS technologiích a nabízí alternativu k uzavřeným komerčním řešením.
Pro více informací: https://qwen.ai/blog?id=qwen3tts-0115