阿里巴巴通义实验室和南开大学携手推出了一款名为 LLaVA-Scissor 的视频压缩方法,这一技术的发布有望提升视频理解的效率。
这款 LLaVA-Scissor 视频压缩技术的核心原理基于图论,它能够精准识别出视频中 token 的语义区域,从而有效减少冗余信息。同时,通过运用空间和时间上的双重压缩策略,该技术可以显著降低 token 的数量。
经过实验验证,在多个视频理解的基准测试中,LLaVA-Scissor 都展现出了领先的性能。即便在低保留率的情况下,它依然能保持较高的精度,进而切实提升了视频处理的效率。
.
.
.
