InternVL3.5 的关键在评估边界：视觉路由、拆分部署与 GUI agency 需要各自的计分表

这张 ITU 在 2024 年上海世界人工智能大会拍摄的真实照片适合本文，因为 InternVL3.5 属于中国开源多模态模型生态，相关研究主张会穿过会议、实验室、model card 与部署通道。

把时间放在 2026-04-22 UTC，InternVL3.5 的价值更接近一次评估结构提醒：多模态评估已经拆成几组不同契约。一个模型可以在综合视觉语言表格上显得很强，同时仍然留下分辨率策略、集群放置、GUI action 可靠性，以及 benchmark 是否贴近真实工作负载这些问题。[1][2]

这一区分对 AI-China 跟踪很关键，因为 InternVL 是上海人工智能实验室与 OpenGVLab 体系里的模型家族，公开权重、项目页、GitHub release artifact 与 Hugging Face model card 都分布在开放生态里。[1][3][4] 这也是一种容易被过快解读的发布，只要读者停在最大模型名称上，结构就会被压扁。公开 InternVL3.5 页面列出从 1.06B 到 240.70B-A28B 的尺寸梯度，里面包括较小 dense models、MoE variants、不同视觉编码器尺寸，以及会改变模型消耗多少视觉证据的 dynamic-resolution path。[1]

评估层面的教训很清楚：InternVL3.5 需要按边界阅读，单纯排名阅读会遗漏关键结构。项目确实提出广泛能力提升，但工程信号位于这些提升如何产生，以及它们迁移到真实产品时会在哪些位置失效。

图片说明：题图来自 ITU Pictures 对 2024-07-04 上海世博中心 WAIC 期间 AI for Good 场次的记录。它作为 AI-China 会议语境照片使用，对应本文主题：公开中国 AI 研究如何从实验室发布进入生态解读。[6]

分数作为复合对象

InternVL3.5 论文表示，这个模型家族推进了 versatility、reasoning 与 efficiency，并报告相较 InternVL3 最高 +16.0% 的整体 reasoning gain，以及 4.05x inference-speed improvement。[2] 这些数字有意义，前提是 eval envelope 被完整保留。论文把改进同 coarse-to-fine training strategy、Visual Resolution Router 与 Decoupled Vision-Language Deployment strategy 绑在一起，所以进步部分来自架构与操作路径，权重规模只是其中一层。[2]

项目页从另一角度呈现同一边界。InternVL3.5 使用 dynamic resolution，训练阶段最高为 36 tiles of 448 x 448，测试阶段最高为 128 tiles。[1] 这属于结构性细节。它意味着评估取决于系统何时花费额外视觉 token，如何选择分辨率，以及哪些任务奖励细粒度检查，同时降低宽泛场景理解的解释力。

benchmark 阅读的危险正在这里出现。document-understanding task、chart task、GUI task 与 image-captioning task 如果都进入一个 aggregate，aggregate 就会遮住 routing policy。一个准备测试发票抽取、屏幕截图 visual QA 或机器人场景检查的 builder，需要知道模型收益来自更强语言推理、更多视觉 tiles、更好的 OCR exposure，还是一种只在困难视觉案例上花费计算的 runtime policy。

视觉路由已经成为模型契约的一部分

Visual Resolution Router 是这次发布里最重要的操作概念，因为它把分辨率从固定输入假设变成一次决策。arXiv 摘要把 ViR 描述为在不损害性能的前提下动态调整 visual-token resolution；DvD 则把 vision encoder 与 language model 分离到不同 GPU 上，用来平衡负载。[2]

放到评估里，这使 input policy 成为被测试系统的一部分。静态 benchmark 答案可以说模型答对了一个图表或文档问题。生产评估还要追问它使用了哪条分辨率路径，高分辨率 tiles 被选择的频率，latency 是否随图像复杂度变化，以及同一套路由规则在扫描表单、手机截图、密集 slide 与商品图片之间是否保持稳定。

训练数据描述进一步加强这一点。项目页表示 continued pre-training corpora 包含 image captioning、general QA、mathematics、scientific domains、charts、OCR、knowledge grounding、document understanding、multi-turn dialogue 与 medical data 等多模态数据，也包含 text-only component。它给出约 116 million pre-training samples，对应约 250 billion tokens，text-only 与 multimodal 比例约为 1:2.5。[1] SFT 阶段则描述为约 56 million samples 与 130 billion tokens，text-only 与 multimodal 比例约为 1:3.5。[1]

这些锚点很重要，因为它们说明模型可以从哪些层面学会绕开任务难点。强 OCR 与 chart 结果可以来自多种来源：训练暴露、视觉编码器能力、分辨率策略、语言模型推理，或 post-training preference tuning。好的评估设计会把这些层分开，避免把 model card 当成一个单一能力对象。

拆分部署改变 benchmark 问题

DvD 这一路径重要，是因为它把模型家族变成 cluster-topology 问题。vision encoder 与 language model 如果能放在不同 GPU 上，实际评估问题就从“模型有多强”推进到“这套部署形态在我们关心的工作负载下，会产生怎样的准确率、latency、memory 与 scheduling behavior”。[2]

这对最大的 InternVL3.5 分支尤其相关。项目页列出 InternVL3.5-241B-A28B 为 240.70B-A28B，其中视觉部分 5.54B，语言部分 235.09B；Hugging Face model page 则提供这一分支的公开模型 artifact surface。[1][4] 到这个尺度，模型的运行已经进入重型部署语境。benchmark 读者需要把能力上沿与可部署通道分开。

家族较小的一端同样重要。1.06B 或 2.35B 模型提出的是另一类评估问题：在 device、cost 或 latency 被限制时，紧凑多模态模型还能保留哪些能力。于是同一个 release family 同时提出两组问题。大分支追问开放系统能把能力上沿推到哪里；小分支追问在更紧资源预算里，哪些 inspection、OCR、GUI 或 assistant tasks 还能成立。[1]

这也是 AI-China 模型分析需要离开单调排名的原因。InternVL3.5 是一个生态 artifact，也超出单个分数。它的 GitHub repository 把模型家族连接到 Hugging Face 与 ModelScope 链接、早期 InternVL 分支、视觉编码器，以及公开 release lineage，使 builders 能够跨版本移动，避免把每个模型都当成孤立公告。[3]

GUI 与具身 agency 需要自己的 harness

论文还表示 InternVL3.5 支持 GUI interaction 与 embodied agency 等新能力。[2] 这一行需要单独的评估边界。GUI 与具身任务已经超出更难图像问题的范围。它们把视觉识别、指令跟随、状态追踪、action selection 与错误恢复组合在一起。

传统多模态 benchmark 可以奖励模型正确回答屏幕上出现了什么。GUI-agent benchmark 则要评估模型是否选择正确控件，是否避开破坏性操作，是否处理 disabled 或 hidden states，以及界面变化时能否恢复。具身 agent benchmark 还会加入物理或模拟动作层：错误感知会变成错误移动，也会留下动作层错误。

AIbase 的发布报道把 InternVL3.5 描述为上海人工智能实验室的开源多模态发布，并强调它对研究人员与开发者的作用。[5] 这是合理的生态层解读，但 builder 层的读法需要更窄。开放权重与强分数打开了检查空间。GUI 或具身 agents 进入生产自主性之前，仍要接受独立生产评估。

实际 eval harness 至少应该拆出四条通道：static image QA、document or chart inspection、GUI state-action tasks，以及 embodied or robotics-facing perception。单一分数如果混合这些通道，买方就会把 visual intelligence 误读成 action reliability。

builders 应该看什么

对比较中国多模态模型发布的 builders 来说，InternVL3.5 提供的 checklist 比“最大模型、最高排名”更好用。第一，看 resolution policy：系统什么时候花费更多视觉 token，由此产生怎样的 latency。第二，看 deployment policy：模型以 monolith 运行，还是 vision-language split 需要特定 multi-GPU layout。第三，看 task harness：benchmark 测的是静态答案、文档工作流、GUI action，还是具身循环。第四，看 artifact path：权重、文档与 serving recipes 是否足够可见，使另一支团队能够复现主张。[1][2][3][4]

较稳的读法是把 InternVL3.5 放回中国多模态竞赛的评估结构里。它做了一件更有用的事：把多模态主张需要被审计的位置暴露出来。视觉路由、拆分部署与 GUI agency 已经成为新的评估边界。

cronfeed.work