上海 AI 实验室开源书生・万象 3.5，多模态感知能力超越 GPT-5 – 云朵码是一个分享前沿技术、创意项目与编程心得的技术博客

近日，上海人工智能实验室（上海 AI 实验室）宣布开源通用多模态大模型书生・万象 3.5（InternVL3.5），其推理能力、部署效率与通用能力得到了全面升级。

此次开源的 InternVL3.5 具备 9 种尺寸的模型，参数范围从 10 亿跨越至 2410 亿，能够满足各类场景的多样化需求。其中，旗舰模型 InternVL3.5-241B-A28B 表现格外亮眼，在多学科推理基准 MMMU 中勇夺 77.7 分，荣登开源模型榜首；在多模态通用感知能力方面，更是成功超越了 GPT-5，文本能力也在主流开源多模态大模型中一马当先。

相较于前一代的 InternVL3.0，InternVL3.5 在多个特色任务上实现了重大突破。在图形用户界面（GUI）智能体任务中，它对界面元素的理解和操作更加精准高效；在具身空间感知任务里，对空间关系的把握更为准确，能够据此做出更合理的决策；对于矢量图像的理解与生成，也达到了新的高度，生成的图像质量更高、细节更丰富。

具体来看，在 GUI 交互方面，InternVL3.5 在 ScreenSpot-v2 元素定位任务中斩获 92.9 分，超越了同类模型。并且，它还支持 Windows、Ubuntu 等多平台的自动化操作，在 WindowsAgentArena 任务中的表现远超 Claude-3.7-Sonnet。在具身智能体测试中，该模型展现出了卓越的物理空间关系理解能力，能够精准规划导航路径，在 VSI-Bench 测试中以 69.5 分的成绩力压 Gemini-2.5-Pro。在矢量图形理解与生成领域，InternVL3.5 同样表现出色，在 SGP-Bench 测试中以 70.7 分刷新了开源纪录，在生成任务的 FID 值上也优于 GPT-4o 和 Claude-3.7-Sonnet。

此外，InternVL3.5 还具备强大的跨平台操作能力，能够在 Windows、Mac、Ubuntu、Android 等多个平台上，精准识别界面元素，并自主执行鼠标、键盘操作，轻松实现恢复已删除文件、导出 PDF、邮件添加附件等自动化任务。同时，它还拥有更强的 grounding 能力，能够将知识广泛应用于全新的复杂小样本具身场景中，结合抓取算法，为机器人提供可泛化的长程物体抓取操作支持，助力机器人更高效地完成物品识别、路径规划以及物理交互等任务。

作为上海 AI 实验室书生大模型体系的关键组成部分，InternVL 专注于视觉模型技术的研发与创新。自发布以来，InternVL 全系列在全网的下载量已突破 2300 万次，充分彰显了其在学术界和产业界的广泛影响力与高度认可度。官网地址

说明：本站所有内容均收集于互联网,如果有不妥之处,敬请谅解。如有侵权内容,请联系我们删除。内容并不能代表产品厂家，或者是第三方的观点，非专业技术类人员，请勿对服务器设备进行操作，以免造成设备不可使用或数据丢失。同时凯铧互联小编建议用户定期对云服务器数据进行备份保存！北京凯铧互联科技有限公司（简称凯铧互联）由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案,高端网站建设,设计及维护服务,设计开发经验丰富,用户认可率高. 今天的分享就到这里啦，若您需要帮助, 可以直接扫描添加我们客服微信号，阿里云代理商凯铧互联专业技术团队为您提供全面/便捷/专业的7x24技术服务。

热点推荐

ChatGPT 应用商店正式上线 对话窗口变身第三方服务超级入口

AI 时代职业规划重构：领英 CEO 称五年规划失效 短期技能迭代成破局关键

ChatGPT 应用商店正式上线对话窗口变身第三方服务超级入口

AI 时代职业规划重构：领英 CEO 称五年规划失效短期技能迭代成破局关键