字节跳动联合加州大学洛杉矶分校(UCLA)推出 Self-Forcing++ 技术,成功打破 AI 长视频生成的核心瓶颈。针对传统模型生成超 5 秒后易出现的画面崩坏问题,该技术通过反向噪声初始化、扩展分布匹配蒸馏、滚动 KV 缓存训练三大优化,重构模型架构稳定性。
实验数据显示,这项技术可生成最长 4 分 15 秒的高清视频,像无人机航拍海岸线、草原象群迁徙等动态场景,全程画面流畅无卡顿。在 VBench 评测中,其短时语义得分达 80.37,长时视觉稳定性超基准模型 2.6 倍,动态表现提升 104.9%,文本与画面的对齐能力也处于行业领先水平。

.
.
.
