阿里千问近日在Hugging Face平台,正式开源新一代Agent基准测试工具DeepPlanning,同步开源至ModelScope平台供全行业复用迭代,其核心价值的在于精准考察AI处理现实复杂任务的通盘规划能力,打破传统基准“重局部、轻全局”的行业痛点。
与常规测试不同,DeepPlanning以贴近生活的场景为测试核心,重点考察AI在分钟级多日旅行排期(严守时间、预算硬约束)、复杂购物优惠叠加(实现价格最优)等任务中的全局考量能力,要求约束条件贯穿规划全程。
实测数据显示,即便GPT-5.2、Claude 4.5等全球顶尖AI模型,在全局优化与长周期一致性上仍表现乏力,局部决策优异但难以形成自洽的整体方案,距离实现100%自主决策、成为“行动派”AI仍有明显差距,为行业后续模型优化指明了方向。
.
.
.
.
.
.


