DeepMind 帧链 CoF:让视频模型具备时空推理

DeepMind 推出 “帧链”(CoF)技术,将语言模型 “思维链” 逻辑迁移至视觉领域,赋予视频模型时空推理能力,突破传统视频生成 “像素拼接” 瓶颈。

搭载 CoF 的 Veo3 模型表现突出:无需专属训练,凭 “初始图 + 文字指令” 就能完成图像修复、目标识别等任务,打破 “一任务一模型” 局限;能理解物理规律与场景规则,实现视觉元素精准操控,如为静态图像添加动态效果;在 5×5 迷宫测试中成功率达 78%,远超前代。

虽 Veo3 存在边缘检测精度不足、算力成本较高等问题,但 CoF 为通用视觉模型发展奠定基础,未来或赋能创意设计、机器人视觉等场景。

.

.

.

说明:本站所有内容均收集于互联网,如果有不妥之处,敬请谅解。如有侵权内容,请联系我们删除。内容并不能代表产品厂家,或者是第三方的观点,非专业技术类人员,请勿对服务器设备进行操作,以免造成设备不可使用或数据丢失。同时凯铧互联小编建议用户定期对云服务器数据进行备份保存! 北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案,高端网站建设,设计及维护服务,设计开发经验丰富,用户认可率高. 今天的分享就到这里啦,若您需要帮助, 可以直接扫描添加我们客服微信号,阿里云代理商凯铧互联专业技术团队为您提供全面/便捷/专业的7x24技术服务。