阿里 Qwen3-TTS 上线 刷新开源 SOTA 49 种音色百万字符免费享

阿里云正式推出 Qwen3-TTS 文本转语音模型,以零样本跨语言合成能力刷新开源领域 SOTA 纪录,为开发者与行业用户带来高品质语音生成解决方案。

该模型内置 49 种高品质音色,覆盖中文、英文、德语等 10 种主流语言,以及粤语、四川话、天津话等 9 种方言,能精准还原地域口音与自然韵律。技术上,其中文词错误率低至 1.9%,MOS 语音质量评分达 4.53 分(满分 5 分),显著超越 MiniMax、GPT-4o-Audio-Preview 等同类产品。更具备低至 97ms 的首包延迟,支持情感语调自动调节,适配多元场景需求。

目前开发者每月可享 100 万字符免费调用额度,其教育插件已落地上海百所学校。据悉,模型将于明年 Q1 开放音色克隆功能,进一步降低语音定制门槛,全方位赋能内容创作、智能客服、在线教育等领域,推动语音合成技术普惠化。