上海 AI 实验室开源书生・万象 3.5,多模态感知能力超越 GPT-5

近日,上海人工智能实验室(上海 AI 实验室)宣布开源通用多模态大模型书生・万象 3.5(InternVL3.5),其推理能力、部署效率与通用能力得到了全面升级。

此次开源的 InternVL3.5 具备 9 种尺寸的模型,参数范围从 10 亿跨越至 2410 亿,能够满足各类场景的多样化需求。其中,旗舰模型 InternVL3.5-241B-A28B 表现格外亮眼,在多学科推理基准 MMMU 中勇夺 77.7 分,荣登开源模型榜首;在多模态通用感知能力方面,更是成功超越了 GPT-5,文本能力也在主流开源多模态大模型中一马当先。

相较于前一代的 InternVL3.0,InternVL3.5 在多个特色任务上实现了重大突破。在图形用户界面(GUI)智能体任务中,它对界面元素的理解和操作更加精准高效;在具身空间感知任务里,对空间关系的把握更为准确,能够据此做出更合理的决策;对于矢量图像的理解与生成,也达到了新的高度,生成的图像质量更高、细节更丰富。

具体来看,在 GUI 交互方面,InternVL3.5 在 ScreenSpot-v2 元素定位任务中斩获 92.9 分,超越了同类模型。并且,它还支持 Windows、Ubuntu 等多平台的自动化操作,在 WindowsAgentArena 任务中的表现远超 Claude-3.7-Sonnet。在具身智能体测试中,该模型展现出了卓越的物理空间关系理解能力,能够精准规划导航路径,在 VSI-Bench 测试中以 69.5 分的成绩力压 Gemini-2.5-Pro。在矢量图形理解与生成领域,InternVL3.5 同样表现出色,在 SGP-Bench 测试中以 70.7 分刷新了开源纪录,在生成任务的 FID 值上也优于 GPT-4o 和 Claude-3.7-Sonnet。

此外,InternVL3.5 还具备强大的跨平台操作能力,能够在 Windows、Mac、Ubuntu、Android 等多个平台上,精准识别界面元素,并自主执行鼠标、键盘操作,轻松实现恢复已删除文件、导出 PDF、邮件添加附件等自动化任务。同时,它还拥有更强的 grounding 能力,能够将知识广泛应用于全新的复杂小样本具身场景中,结合抓取算法,为机器人提供可泛化的长程物体抓取操作支持,助力机器人更高效地完成物品识别、路径规划以及物理交互等任务。

作为上海 AI 实验室书生大模型体系的关键组成部分,InternVL 专注于视觉模型技术的研发与创新。自发布以来,InternVL 全系列在全网的下载量已突破 2300 万次,充分彰显了其在学术界和产业界的广泛影响力与高度认可度。官网地址

.

.

.

.

说明:本站所有内容均收集于互联网,如果有不妥之处,敬请谅解。如有侵权内容,请联系我们删除。内容并不能代表产品厂家,或者是第三方的观点,非专业技术类人员,请勿对服务器设备进行操作,以免造成设备不可使用或数据丢失。同时凯铧互联小编建议用户定期对云服务器数据进行备份保存! 北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案,高端网站建设,设计及维护服务,设计开发经验丰富,用户认可率高. 今天的分享就到这里啦,若您需要帮助, 可以直接扫描添加我们客服微信号,阿里云代理商凯铧互联专业技术团队为您提供全面/便捷/专业的7x24技术服务。