字节联合 UCLA 突破 AI 长视频极限最长生成 4 分 15 秒高清内容 – 云朵码是一个分享前沿技术、创意项目与编程心得的技术博客

字节跳动联合加州大学洛杉矶分校（UCLA）推出 Self-Forcing++ 技术，成功打破 AI 长视频生成的核心瓶颈。针对传统模型生成超 5 秒后易出现的画面崩坏问题，该技术通过反向噪声初始化、扩展分布匹配蒸馏、滚动 KV 缓存训练三大优化，重构模型架构稳定性。

实验数据显示，这项技术可生成最长 4 分 15 秒的高清视频，像无人机航拍海岸线、草原象群迁徙等动态场景，全程画面流畅无卡顿。在 VBench 评测中，其短时语义得分达 80.37，长时视觉稳定性超基准模型 2.6 倍，动态表现提升 104.9%，文本与画面的对齐能力也处于行业领先水平。

热点推荐