火山引擎正式推出豆包大模型 1.6-vision,这款家族首个支持工具调用的视觉模型,标志着其多模态能力实现关键升级。
该模型创新性地将图像处理融入思维链,能模拟人类 “全局扫描到局部聚焦” 的视觉推理过程,通过内置的定位剪裁、缩放旋转等工具,完成从《清明上河图》精准找人到医疗影像病灶分析等复杂任务。借助 Responses API 接口,开发者无需大量编码即可集成功能,Agent 开发代码量可减少约 60%。
性能跃升的同时,模型实现成本大幅优化 —— 对比上一代,综合成本降低约 50%,这得益于架构优化与推理效率提升。目前其物体识别准确率达 98.7%,已开放商业接口,为工业质检、智慧零售等 30 余个行业提供高性价比的视觉理解方案。

.
.
.
.
.
