阿里千问开源DeepPlanning,顶尖AI复杂规划与决策短板浮出水面

阿里千问近日在Hugging Face平台,正式开源新一代Agent基准测试工具DeepPlanning,同步开源至ModelScope平台供全行业复用迭代,其核心价值的在于精准考察AI处理现实复杂任务的通盘规划能力,打破传统基准“重局部、轻全局”的行业痛点。

与常规测试不同,DeepPlanning以贴近生活的场景为测试核心,重点考察AI在分钟级多日旅行排期(严守时间、预算硬约束)、复杂购物优惠叠加(实现价格最优)等任务中的全局考量能力,要求约束条件贯穿规划全程。

实测数据显示,即便GPT-5.2、Claude 4.5等全球顶尖AI模型,在全局优化与长周期一致性上仍表现乏力,局部决策优异但难以形成自洽的整体方案,距离实现100%自主决策、成为“行动派”AI仍有明显差距,为行业后续模型优化指明了方向。

说明:本站所有内容均收集于互联网,如果有不妥之处,敬请谅解。如有侵权内容,请联系我们删除。内容并不能代表产品厂家,或者是第三方的观点,非专业技术类人员,请勿对服务器设备进行操作,以免造成设备不可使用或数据丢失。同时凯铧互联小编建议用户定期对云服务器数据进行备份保存! 北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案,高端网站建设,设计及维护服务,设计开发经验丰富,用户认可率高. 今天的分享就到这里啦,若您需要帮助, 可以直接扫描添加我们客服微信号,阿里云代理商凯铧互联专业技术团队为您提供全面/便捷/专业的7x24技术服务。