通义千问发布 Qwen3-LiveTranslate-Flash:多模态实时翻译,3 秒解锁跨语言沟通

通义千问正式推出多语言实时音视频同传模型 Qwen3-LiveTranslate-Flash,以 “视觉增强 + 低延迟 + 高精度” 的全栈技术突破,重新定义智能翻译体验,为国际交流、专业服务等场景提供高效跨语言解决方案。

这款新模型实现了 18 种语言及多种方言的全覆盖,其中既包含英、法、德、日等 12 种主流外语,也囊括普通话、粤语、四川话、吴语等 6 种中文方言,能精准应对日常交流与专业场景的语言需求。在响应速度上,依托轻量化混合专家架构与动态采样策略,其同传延迟被压缩至 3 秒以内,在跨境直播等场景中,主播发言后约 2 秒即可生成目标语言字幕,基本实现无缝衔接。

突破性的视觉上下文增强技术让模型实现了 “能听会看” 的多模态理解 —— 通过实时分析说话人的口型变化、肢体动作甚至背景文字,有效弥补单一语音输入的局限。在背景噪音干扰测试中,该技术使专有名词识别准确率较传统方案提升 37%,尤其能精准区分 “mask”(口罩)与 “Musk”(马斯克)这类同音异义词,错误率可控制在 1.2% 以下。配合语义单元预测技术对跨语言语句结构的重构,其实时翻译质量达到离线翻译的 98% 以上,在金融、医疗等专业领域的术语翻译准确率更是突破 94%。

在权威测评中,Qwen3-LiveTranslate-Flash 表现亮眼,在中英及多语言语音翻译榜单中,准确度显著优于 GPT-4o-Audio-Preview、Gemini-2.5-Flash 等国际主流模型,除单一项目外均登顶榜首。更值得关注的是,模型支持离线运行模式,即便在飞机、偏远地区等无网络环境下仍能正常使用,同时搭载 8 种拟人化特色语音包,可根据内容智能调节语调与情感,让翻译结果更具自然表现力。

目前,该模型已开放 API 接口供开发者调用,其技术优势已在多元场景中显现:国际会议中可通过口型识别补全劣质音频信息,医疗问诊时能结合手势辅助语义判断,跨境直播里可实现实时多语言字幕生成。从商务人士的跨国谈判到旅行者的海外交流,Qwen3-LiveTranslate-Flash 正以 “更快响应、更高精度、更全场景” 的能力,打破语言沟通的壁垒。

.

.

.

.

.

说明:本站所有内容均收集于互联网,如果有不妥之处,敬请谅解。如有侵权内容,请联系我们删除。内容并不能代表产品厂家,或者是第三方的观点,非专业技术类人员,请勿对服务器设备进行操作,以免造成设备不可使用或数据丢失。同时凯铧互联小编建议用户定期对云服务器数据进行备份保存! 北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案,高端网站建设,设计及维护服务,设计开发经验丰富,用户认可率高. 今天的分享就到这里啦,若您需要帮助, 可以直接扫描添加我们客服微信号,阿里云代理商凯铧互联专业技术团队为您提供全面/便捷/专业的7x24技术服务。