GLM-4.5V 让视觉智能体基准回到屏幕操作协定

这张真实的 WAIC 2025 会议照片让本文回到中国公开 AI 部署现场：演讲者、舞台、屏幕、厂商与公开会场一起说明，模型主张会在这样的现场转成行业信号。[5]

截至 2026-05-31 UTC，GLM-4.5V 最值得看的信号落在 Z.AI 对评测任务的合并：图像推理、视频理解、文档解读、grounding、网页编码和 GUI 智能体操作，被收进同一个模型家族。[1][2][3] 多模态排行榜名次退到次要位置之后，更尖锐的问题随之出现：这些评测能否把屏幕上的约定带进真实智能体任务。

这组能力正撞上智能体卡住的地方。真实的办公室、浏览器、仪表盘、IDE 或手机屏幕，既是图像，也是版面、状态机、可操作入口、坐标系和文本来源；每次点击以后，屏幕还会变化。GLM-4.5V 的分量正在这里：视觉模型能否把像素、坐标、工具调用和任务成功之间的协定维持得足够稳定，让开发者敢把它放进工作流。

关键数字很明确。Z.AI 开发者页面称，GLM-4.5V 是一个 MoE 视觉推理模型，拥有 106B 总参数和 12B 激活参数，可接受 video、image、text、file 输入，并生成文本输出，最大输出 token 列为 16K。[1] 同一页面把网页编码、grounding、GUI 智能体、长文档解读、图像推理、视频理解与学科题目求解列为适用任务。[1] Hugging Face 卡片把该模型放入 GLM-V 家族，注明其基于 GLM-4.5-Air，并指向 Transformers、vLLM、SGLang、Docker Model Runner 以及 OpenAI 兼容 serving 示例。[2]

这些信息有实际分量。模型一面作为托管 API 出现，一面以可检查的开放权重发布；外部团队能够把它放进自己的 serving stack，用自己的截图复测，再接入自己的 agent harness。[2] 放进 AI-China 档案看，这是一条分发信号：能力声明已经连到开放模型渠道、推理运行时和熟悉的 API 形态，脱离单一国产聊天产品的展示口径。

基准说法要讲清范围

GLM-V 技术报告称，GLM-4.5V 接受了 42 个公开基准评测，并声称在同等规模开源模型中达到最先进表现，重点覆盖 STEM 题目求解、视频理解、内容识别、编码、grounding、基于 GUI 的智能体以及长文档解读等任务。[3] 这份名单很宽，宽度本身就是重点。

风险也在宽度里。“GUI 智能体”可以指很多不同事情：读取截图、定位按钮、输出坐标、选择下一步动作、使用无障碍树、调用浏览器工具、在页面变化后恢复，或者在隐藏中间状态的工作流里完成任务。一个基准只测其中一项时，结果仍有价值；它能外推到哪里，也要讲清。文档和图表任务同理。从干净图像里抽取表格，与理解拍摄的幻灯片、电子表格导出、旋转发票，或带有嵌套图形的研究 PDF，并非同一种难度。

更合适的读法是：42 个基准标出了需要追问屏幕约定的地方；它们本身还不能等同于部署就绪证明。对于每个基准或内部评测，团队都需要留下屏幕分辨率、坐标约定、应用版本、提示模板、工具 schema、允许重试次数、超时设置、成功标准以及动作后观察方法。缺少这些细节，视觉智能体分数就很难从论文进入生产。

Thinking Mode 改写成本问题

GLM-4.5V 还继承了快速响应与深层推理之间的拆分。Z.AI 文档描述了一个 Thinking Mode 开关，用于平衡快速响应和更深推理；Hugging Face 卡片称，这个开关的工作方式类似 GLM-4.5 语言模型中的对应设置。[1][2] 这一点很重要，因为视觉智能体任务很少只有一种形态。

一类调用接近廉价感知：识别字段、读取按钮标签、概括页面区域、判断某个元素是否可见。另一类调用属于规划：决定点击、滚动、编辑、等待、询问用户，或放弃一条路径。把两类调用混成同一个推理问题，会浪费资金，也会让智能体慢过它原本要改善的人类工作流。

基础版 GLM-4.5 论文在这里很有帮助。它把该模型家族放在 agentic、reasoning 和 coding 能力中讨论，并描述了一个更大的 355B/32B-active 模型，以及一个更小的 106B/12B-active Air 变体，二者都按混合推理和直接响应模式设计。[4] 从模型卡与论文并读，可以推断 Z.AI 希望文本智能体和视觉智能体遵循同一套调用思路：任务局部时用快速调用，任务需要多步推理或恢复时再用 thinking 调用。[2][4]

严肃的 GLM-4.5V 测试需要把这个成本问题写进去。测试不能只问模型有没有完成任务，还要追问任务是否需要 thinking mode、消耗了多少视觉 token 和输出 token、更便宜的非 thinking 调用是否已经足够，以及同一界面在轻微布局变化后重新运行时结果是否仍能成立。

开放权重把难题交给外部测试

开放权重发布让这件事脱离供应商基准。Hugging Face 页面把模型公开为 zai-org/GLM-4.5V，标注 MIT license，并给出 Transformers、vLLM、SGLang 和 Docker Model Runner 的本地或服务器部署示例。[2] 团队由此能把测试拉近自己的真实负载。

文档 AI 团队可以拿自己的扫描表单测试模型，公开 OCR 基准只是起点。浏览器智能体团队可以用固定 harness 重放真实截图和动作序列。软件团队可以检查基于截图生成的视觉编码，究竟是可维护 UI 代码，还是只像那么回事的 HTML。合规团队可以确认，含有私密业务数据的截图能否留在获批环境内。

中国开放模型技术栈在运行侧的看点，也由此变得更具体。许多 AI-China 文章仍写模型发布节奏、token 定价，或本土模型与前沿基准的距离。GLM-4.5V 指向更实际的前沿：开放中国 VLM 能不能作为 agent eval 系统的一块，被企业、研究实验室和工具供应商拿来复现、比较。

部署范围仍然很窄

谨慎读法仍然必要。Z.AI 自身文档和模型卡仍是最强性能主张的主要来源。[1][2][3] 在外部团队复现设置、任务组合、硬件、运行时、提示词和评分逻辑之前，基准排名只宜作为方向性信息。一个很高的 GUI 智能体分数，信息量小于一份基于买方真实屏幕写成、记录完整的失败分析。

基准还会遮住一个用户界面问题。模型可以在某一分辨率下准确定位控件，却在响应式布局变化后失败；可以解析表格，却在分页之后丢失行身份；可以理解一段视频，却无法选择哪一帧应触发动作；可以根据截图生成前端代码，却忽略组件状态、无障碍标签或生产设计系统约束。这些项目都该写进正文；它们划出演示与工具之间的差别。

反证条件很直接：如果 GLM-4.5V 的亮眼表现主要停留在供应商选择或定义松散的基准上，而外部 harness 无法在浏览器、文档、视频和 GUI 动作之间维持可靠屏幕协定，那么“视觉智能体”的故事就比排行榜显示得更薄。更强的证明将来自公开、可复现的任务套件，并附带动作轨迹、截图、工具调用、延迟、token 成本和失败标签。

接下来观察什么

第一项观察，是 GLM-4.5V 是否进入更多独立 GUI 智能体和文档智能体评测，并给出完整 harness 细节，超出聚合排名本身。第二项观察，是 vLLM 和 SGLang 的开放 serving 能否为多模态工作负载给出可预期的延迟、内存与批处理行为。[2] 第三项观察，是 Z.AI 后续 GLM-V 系列能否继续把原生工具使用和长上下文视觉工作绑定到可复现任务协定上，避免功能清单扩张快过评测纪律。[3]

GLM-4.5V 因此值得进入 AI-China 档案。它的意义超过一个更大的视觉模型。它是一枚测试样本，让国内开放模型技术栈接受一组可复测的问题。屏幕显示了什么，模型看到了什么；它指向哪里，执行了什么；屏幕随后怎样变化，另一支团队能否重放结果。

cronfeed.work