把时间放在 2026-04-22 UTC,InternVL3.5 的价值更接近一次评估结构提醒:多模态评估已经拆成几组不同契约。一个模型可以在综合视觉语言表格上显得很强,同时仍然留下分辨率策略、集群放置、GUI action 可靠性,以及 benchmark 是否贴近真实工作负载这些问题。[1][2]

这一区分对 AI-China 跟踪很关键,因为 InternVL 是上海人工智能实验室与 OpenGVLab 体系里的模型家族,公开权重、项目页、GitHub release artifact 与 Hugging Face model card 都分布在开放生态里。[1][3][4] 这也是一种容易被过快解读的发布,只要读者停在最大模型名称上,结构就会被压扁。公开 InternVL3.5 页面列出从 1.06B240.70B-A28B 的尺寸梯度,里面包括较小 dense models、MoE variants、不同视觉编码器尺寸,以及会改变模型消耗多少视觉证据的 dynamic-resolution path。[1]

评估层面的教训很清楚:InternVL3.5 需要按边界阅读,单纯排名阅读会遗漏关键结构。项目确实提出广泛能力提升,但工程信号位于这些提升如何产生,以及它们迁移到真实产品时会在哪些位置失效。

图片说明:题图来自 ITU Pictures 对 2024-07-04 上海世博中心 WAIC 期间 AI for Good 场次的记录。它作为 AI-China 会议语境照片使用,对应本文主题:公开中国 AI 研究如何从实验室发布进入生态解读。[6]

分数作为复合对象

InternVL3.5 论文表示,这个模型家族推进了 versatility、reasoning 与 efficiency,并报告相较 InternVL3 最高 +16.0% 的整体 reasoning gain,以及 4.05x inference-speed improvement。[2] 这些数字有意义,前提是 eval envelope 被完整保留。论文把改进同 coarse-to-fine training strategy、Visual Resolution Router 与 Decoupled Vision-Language Deployment strategy 绑在一起,所以进步部分来自架构与操作路径,权重规模只是其中一层。[2]

项目页从另一角度呈现同一边界。InternVL3.5 使用 dynamic resolution,训练阶段最高为 36 tiles of 448 x 448,测试阶段最高为 128 tiles。[1] 这属于结构性细节。它意味着评估取决于系统何时花费额外视觉 token,如何选择分辨率,以及哪些任务奖励细粒度检查,同时降低宽泛场景理解的解释力。

benchmark 阅读的危险正在这里出现。document-understanding task、chart task、GUI task 与 image-captioning task 如果都进入一个 aggregate,aggregate 就会遮住 routing policy。一个准备测试发票抽取、屏幕截图 visual QA 或机器人场景检查的 builder,需要知道模型收益来自更强语言推理、更多视觉 tiles、更好的 OCR exposure,还是一种只在困难视觉案例上花费计算的 runtime policy。

视觉路由已经成为模型契约的一部分

Visual Resolution Router 是这次发布里最重要的操作概念,因为它把分辨率从固定输入假设变成一次决策。arXiv 摘要把 ViR 描述为在不损害性能的前提下动态调整 visual-token resolution;DvD 则把 vision encoder 与 language model 分离到不同 GPU 上,用来平衡负载。[2]

放到评估里,这使 input policy 成为被测试系统的一部分。静态 benchmark 答案可以说模型答对了一个图表或文档问题。生产评估还要追问它使用了哪条分辨率路径,高分辨率 tiles 被选择的频率,latency 是否随图像复杂度变化,以及同一套路由规则在扫描表单、手机截图、密集 slide 与商品图片之间是否保持稳定。

训练数据描述进一步加强这一点。项目页表示 continued pre-training corpora 包含 image captioning、general QA、mathematics、scientific domains、charts、OCR、knowledge grounding、document understanding、multi-turn dialogue 与 medical data 等多模态数据,也包含 text-only component。它给出约 116 million pre-training samples,对应约 250 billion tokens,text-only 与 multimodal 比例约为 1:2.5。[1] SFT 阶段则描述为约 56 million samples 与 130 billion tokens,text-only 与 multimodal 比例约为 1:3.5。[1]

这些锚点很重要,因为它们说明模型可以从哪些层面学会绕开任务难点。强 OCR 与 chart 结果可以来自多种来源:训练暴露、视觉编码器能力、分辨率策略、语言模型推理,或 post-training preference tuning。好的评估设计会把这些层分开,避免把 model card 当成一个单一能力对象。

拆分部署改变 benchmark 问题

DvD 这一路径重要,是因为它把模型家族变成 cluster-topology 问题。vision encoder 与 language model 如果能放在不同 GPU 上,实际评估问题就从“模型有多强”推进到“这套部署形态在我们关心的工作负载下,会产生怎样的准确率、latency、memory 与 scheduling behavior”。[2]

这对最大的 InternVL3.5 分支尤其相关。项目页列出 InternVL3.5-241B-A28B240.70B-A28B,其中视觉部分 5.54B,语言部分 235.09B;Hugging Face model page 则提供这一分支的公开模型 artifact surface。[1][4] 到这个尺度,模型的运行已经进入重型部署语境。benchmark 读者需要把能力上沿与可部署通道分开。

家族较小的一端同样重要。1.06B2.35B 模型提出的是另一类评估问题:在 device、cost 或 latency 被限制时,紧凑多模态模型还能保留哪些能力。于是同一个 release family 同时提出两组问题。大分支追问开放系统能把能力上沿推到哪里;小分支追问在更紧资源预算里,哪些 inspection、OCR、GUI 或 assistant tasks 还能成立。[1]

这也是 AI-China 模型分析需要离开单调排名的原因。InternVL3.5 是一个生态 artifact,也超出单个分数。它的 GitHub repository 把模型家族连接到 Hugging Face 与 ModelScope 链接、早期 InternVL 分支、视觉编码器,以及公开 release lineage,使 builders 能够跨版本移动,避免把每个模型都当成孤立公告。[3]

GUI 与具身 agency 需要自己的 harness

论文还表示 InternVL3.5 支持 GUI interaction 与 embodied agency 等新能力。[2] 这一行需要单独的评估边界。GUI 与具身任务已经超出更难图像问题的范围。它们把视觉识别、指令跟随、状态追踪、action selection 与错误恢复组合在一起。

传统多模态 benchmark 可以奖励模型正确回答屏幕上出现了什么。GUI-agent benchmark 则要评估模型是否选择正确控件,是否避开破坏性操作,是否处理 disabled 或 hidden states,以及界面变化时能否恢复。具身 agent benchmark 还会加入物理或模拟动作层:错误感知会变成错误移动,也会留下动作层错误。

AIbase 的发布报道把 InternVL3.5 描述为上海人工智能实验室的开源多模态发布,并强调它对研究人员与开发者的作用。[5] 这是合理的生态层解读,但 builder 层的读法需要更窄。开放权重与强分数打开了检查空间。GUI 或具身 agents 进入生产自主性之前,仍要接受独立生产评估。

实际 eval harness 至少应该拆出四条通道:static image QA、document or chart inspection、GUI state-action tasks,以及 embodied or robotics-facing perception。单一分数如果混合这些通道,买方就会把 visual intelligence 误读成 action reliability。

builders 应该看什么

对比较中国多模态模型发布的 builders 来说,InternVL3.5 提供的 checklist 比“最大模型、最高排名”更好用。第一,看 resolution policy:系统什么时候花费更多视觉 token,由此产生怎样的 latency。第二,看 deployment policy:模型以 monolith 运行,还是 vision-language split 需要特定 multi-GPU layout。第三,看 task harness:benchmark 测的是静态答案、文档工作流、GUI action,还是具身循环。第四,看 artifact path:权重、文档与 serving recipes 是否足够可见,使另一支团队能够复现主张。[1][2][3][4]

较稳的读法是把 InternVL3.5 放回中国多模态竞赛的评估结构里。它做了一件更有用的事:把多模态主张需要被审计的位置暴露出来。视觉路由、拆分部署与 GUI agency 已经成为新的评估边界。

来源

  1. InternVL project page,"InternVL3.5" release notes 与 model table(模型尺寸、dynamic resolution、训练数据描述与 SFT 细节)。
  2. Weiyun Wang 等,"InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency",arXiv:2508.18265。
  3. OpenGVLab,"InternVL" GitHub repository(release history、model-family links、Hugging Face 与 ModelScope artifact links)。
  4. Hugging Face,"OpenGVLab/InternVL35-241B-A28B" model card 与公开模型 artifact page。
  5. AIbase,"Shanghai AI Lab Releases the Multimodal Large Model Shuengwan InternVL3.5"(二级发布报道)。
  6. ITU Pictures on Flickr,"AI for Good Innovate for Impact"(本文题图所用 2024 WAIC 场次照片)。