腾讯混元 Voyager 模型首发，开创业界原生 3D 重建能力之先河 – 云朵码是一个分享前沿技术、创意项目与编程心得的技术博客

在人工智能技术飞速发展的当下，腾讯混元又带来了一项令人瞩目的创新成果。9 月 2 日，腾讯混元正式推出混元 Voyager 模型，这一模型凭借其业界首创的原生 3D 重建能力，瞬间成为行业焦点。

混元 Voyager 作为超长漫游世界模型，专注于 AI 在空间智能领域的应用拓展，将为虚拟现实、物理仿真、游戏开发等众多领域，提供高保真的 3D 场景漫游功能。以往，传统的视频生成技术在空间一致性和探索范围上存在诸多局限，而混元 Voyager 的诞生，彻底打破了这些瓶颈。它能够生成具有世界一致性的长距离漫游场景，还支持将视频直接导出为 3D 格式，极大地提升了虚拟场景的真实感与交互性。

从技术层面来看，混元 Voyager 创新性地将场景深度预测引入视频生成过程，融合了视频生成与 3D 建模的优势。基于相机可控的视频生成技术，它能够从初始场景视图和用户指定相机轨迹中，合成可自由控制视角、空间连贯的 RGB-D 视频（即包含 RGB 图像和深度信息的点云视频）。用户操作也十分便捷，通过键盘或者摇杆，就能轻松控制生成对应的视频画面，并借助 3D 空间记忆保持画面的高度一致性，达到与 Genie3 等可交互视频模型相同的效果。与此同时，Voyager 还支持将生成视频无损导出为 3D 点云，无需依赖 COLMAP 等额外重建工具，大大简化了操作流程。

混元 Voyager 的 3D 输入 – 3D 输出特性，与此前已开源的混元世界模型 1.0 高度适配。二者结合，可进一步扩展 1.0 模型的漫游范围，提升复杂场景的生成质量，用户还能对生成的场景进行风格化控制和编辑。不仅如此，该模型还具备强大的 3D 理解与生成能力，可支持视频场景重建、3D 物体纹理生成、视频风格定制化生成、视频深度估计等多种应用。

在权威的斯坦福大学李飞飞团队发布的世界模型基准测试 WorldScore 中，混元 Voyager 综合能力位居首位，超越了现有所有开源方法，在视频生成和 3D 重建任务中均展现出了卓越性能。这一成绩，无疑是对混元 Voyager 技术实力的有力认可。

目前，混元 Voyager 已正式上线，相关技术报告也已公开，源代码在 GitHub 和 Hugging Face 上免费开放，全球开发者均可下载使用。相信随着这一模型的推广应用，将为众多行业带来全新的发展机遇，推动相关领域迈向新的发展阶段。官网地址

说明：本站所有内容均收集于互联网,如果有不妥之处,敬请谅解。如有侵权内容,请联系我们删除。内容并不能代表产品厂家，或者是第三方的观点，非专业技术类人员，请勿对服务器设备进行操作，以免造成设备不可使用或数据丢失。同时凯铧互联小编建议用户定期对云服务器数据进行备份保存！北京凯铧互联科技有限公司（简称凯铧互联）由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案,高端网站建设,设计及维护服务,设计开发经验丰富,用户认可率高. 今天的分享就到这里啦，若您需要帮助, 可以直接扫描添加我们客服微信号，阿里云代理商凯铧互联专业技术团队为您提供全面/便捷/专业的7x24技术服务。

热点推荐

百度网盘适配实况照片：iOS 安卓互传无阻，动态无损留存

谷歌 Gemini 上线地图集成工具：可调用 2.5 亿地点实时数据