DeepMind 推出 “帧链”(CoF)技术,将语言模型 “思维链” 逻辑迁移至视觉领域,赋予视频模型时空推理能力,突破传统视频生成 “像素拼接” 瓶颈。
搭载 CoF 的 Veo3 模型表现突出:无需专属训练,凭 “初始图 + 文字指令” 就能完成图像修复、目标识别等任务,打破 “一任务一模型” 局限;能理解物理规律与场景规则,实现视觉元素精准操控,如为静态图像添加动态效果;在 5×5 迷宫测试中成功率达 78%,远超前代。
虽 Veo3 存在边缘检测精度不足、算力成本较高等问题,但 CoF 为通用视觉模型发展奠定基础,未来或赋能创意设计、机器人视觉等场景。

.
.
.
