在人工智能技术飞速发展的当下,腾讯混元又带来了一项令人瞩目的创新成果。9 月 2 日,腾讯混元正式推出混元 Voyager 模型,这一模型凭借其业界首创的原生 3D 重建能力,瞬间成为行业焦点。
混元 Voyager 作为超长漫游世界模型,专注于 AI 在空间智能领域的应用拓展,将为虚拟现实、物理仿真、游戏开发等众多领域,提供高保真的 3D 场景漫游功能。以往,传统的视频生成技术在空间一致性和探索范围上存在诸多局限,而混元 Voyager 的诞生,彻底打破了这些瓶颈。它能够生成具有世界一致性的长距离漫游场景,还支持将视频直接导出为 3D 格式,极大地提升了虚拟场景的真实感与交互性。
从技术层面来看,混元 Voyager 创新性地将场景深度预测引入视频生成过程,融合了视频生成与 3D 建模的优势。基于相机可控的视频生成技术,它能够从初始场景视图和用户指定相机轨迹中,合成可自由控制视角、空间连贯的 RGB-D 视频(即包含 RGB 图像和深度信息的点云视频)。用户操作也十分便捷,通过键盘或者摇杆,就能轻松控制生成对应的视频画面,并借助 3D 空间记忆保持画面的高度一致性,达到与 Genie3 等可交互视频模型相同的效果。与此同时,Voyager 还支持将生成视频无损导出为 3D 点云,无需依赖 COLMAP 等额外重建工具,大大简化了操作流程。
混元 Voyager 的 3D 输入 – 3D 输出特性,与此前已开源的混元世界模型 1.0 高度适配。二者结合,可进一步扩展 1.0 模型的漫游范围,提升复杂场景的生成质量,用户还能对生成的场景进行风格化控制和编辑。不仅如此,该模型还具备强大的 3D 理解与生成能力,可支持视频场景重建、3D 物体纹理生成、视频风格定制化生成、视频深度估计等多种应用。
在权威的斯坦福大学李飞飞团队发布的世界模型基准测试 WorldScore 中,混元 Voyager 综合能力位居首位,超越了现有所有开源方法,在视频生成和 3D 重建任务中均展现出了卓越性能。这一成绩,无疑是对混元 Voyager 技术实力的有力认可。
目前,混元 Voyager 已正式上线,相关技术报告也已公开,源代码在 GitHub 和 Hugging Face 上免费开放,全球开发者均可下载使用。相信随着这一模型的推广应用,将为众多行业带来全新的发展机遇,推动相关领域迈向新的发展阶段 。官网地址

.
.
.
.
.
.
.
