近日,上海人工智能实验室(上海 AI 实验室)宣布开源通用多模态大模型书生・万象 3.5(InternVL3.5),其推理能力、部署效率与通用能力得到了全面升级。
此次开源的 InternVL3.5 具备 9 种尺寸的模型,参数范围从 10 亿跨越至 2410 亿,能够满足各类场景的多样化需求。其中,旗舰模型 InternVL3.5-241B-A28B 表现格外亮眼,在多学科推理基准 MMMU 中勇夺 77.7 分,荣登开源模型榜首;在多模态通用感知能力方面,更是成功超越了 GPT-5,文本能力也在主流开源多模态大模型中一马当先。
相较于前一代的 InternVL3.0,InternVL3.5 在多个特色任务上实现了重大突破。在图形用户界面(GUI)智能体任务中,它对界面元素的理解和操作更加精准高效;在具身空间感知任务里,对空间关系的把握更为准确,能够据此做出更合理的决策;对于矢量图像的理解与生成,也达到了新的高度,生成的图像质量更高、细节更丰富。
具体来看,在 GUI 交互方面,InternVL3.5 在 ScreenSpot-v2 元素定位任务中斩获 92.9 分,超越了同类模型。并且,它还支持 Windows、Ubuntu 等多平台的自动化操作,在 WindowsAgentArena 任务中的表现远超 Claude-3.7-Sonnet。在具身智能体测试中,该模型展现出了卓越的物理空间关系理解能力,能够精准规划导航路径,在 VSI-Bench 测试中以 69.5 分的成绩力压 Gemini-2.5-Pro。在矢量图形理解与生成领域,InternVL3.5 同样表现出色,在 SGP-Bench 测试中以 70.7 分刷新了开源纪录,在生成任务的 FID 值上也优于 GPT-4o 和 Claude-3.7-Sonnet。
此外,InternVL3.5 还具备强大的跨平台操作能力,能够在 Windows、Mac、Ubuntu、Android 等多个平台上,精准识别界面元素,并自主执行鼠标、键盘操作,轻松实现恢复已删除文件、导出 PDF、邮件添加附件等自动化任务。同时,它还拥有更强的 grounding 能力,能够将知识广泛应用于全新的复杂小样本具身场景中,结合抓取算法,为机器人提供可泛化的长程物体抓取操作支持,助力机器人更高效地完成物品识别、路径规划以及物理交互等任务。
作为上海 AI 实验室书生大模型体系的关键组成部分,InternVL 专注于视觉模型技术的研发与创新。自发布以来,InternVL 全系列在全网的下载量已突破 2300 万次,充分彰显了其在学术界和产业界的广泛影响力与高度认可度。官网地址

.
.
.
.
