清华大学联合腾讯 AI Lab 开源对话语音模型 MOSS-TTSD,支持中英双语生成。利用百万小时语音数据训练,实现高表现力对话语音输出。模型创新采用 XY-Tokenizer 编码器,在 1kbps 低比特率下保持语音质量,支持零样本音色克隆及最长 960 秒连续生成。已开放模型权重、API 及在线演示,推动 AI 播客、影视配音等应用落地。

.
清华大学联合腾讯 AI Lab 开源对话语音模型 MOSS-TTSD,支持中英双语生成。利用百万小时语音数据训练,实现高表现力对话语音输出。模型创新采用 XY-Tokenizer 编码器,在 1kbps 低比特率下保持语音质量,支持零样本音色克隆及最长 960 秒连续生成。已开放模型权重、API 及在线演示,推动 AI 播客、影视配音等应用落地。
.