截至 2026-05-31 UTC,阅读 GLM-4.5V 的有效方式,应从 Z.AI 正在尝试把多个评测表面压入同一个模型家族这一点展开:图像推理、视频理解、文档解读、grounding、网页编码以及 GUI 智能体操作。[1][2][3] 它的意义超出“多模态排行榜上又前进一格”的视觉语言模型叙事。

这一组合具有吸引力,因为它正对着智能体卡住的位置。真实的办公室、浏览器、仪表盘、IDE 或手机屏幕,除了一张图像之外,还是一种布局、一个状态机、一组可操作入口、一个坐标系统、一个文本来源,并且在每次点击之后都会移动。GLM-4.5V 的意义在于,它把中国 AI 技术栈推到一个更硬的问题前:视觉模型能否让像素、坐标、工具调用与任务成功之间的契约保持足够稳定,使开发者愿意信任它。

头部数字很清楚。Z.AI 的开发者页面将 GLM-4.5V 描述为一个 MoE 视觉推理模型,拥有 106B 总参数12B 激活参数,可接受 video、image、text、file 输入,并生成文本输出,列出的最大输出 token 设置为 16K。[1] 同一页面把网页编码、grounding、GUI 智能体、长文档解读、图像推理、视频理解与学科题目求解都放入使用范围。[1] Hugging Face 卡片则将该模型置于 GLM-V 家族之中,说明其基于 GLM-4.5-Air,并把开发者引向 Transformers、vLLM、SGLang、Docker Model Runner 以及 OpenAI 兼容服务示例。[2]

这些细节分量不轻。它们意味着,这个模型的呈现方式超出托管 API,也被呈现为一个可检查的开放权重产物,外部团队可以把它放入自己的服务栈,用自己的截图复现结果,并接入自己的智能体测试框架。[2] 放在 AI-China 语境里,这是一种分发信号:能力主张被连接到开放模型渠道、推理运行时和熟悉的 API 形态,而不只连接到一个本土聊天产品。

基准主张需要边界

GLM-V 技术报告称,GLM-4.5V 接受了 42 个公开基准评测,并声称在同等规模开源模型中达到最先进表现,重点覆盖 STEM 题目求解、视频理解、内容识别、编码、grounding、基于 GUI 的智能体以及长文档解读等任务。[3] 这是一个很宽的边界,宽度本身就是重点。

风险也来自这份宽度。“GUI 智能体”可以指很多不同事情:读取截图、定位按钮、输出坐标、选择下一步动作、使用无障碍树、调用浏览器工具、在页面变化后恢复,或者在隐藏中间状态的工作流里完成任务。某个基准测试其中一项时可以有价值,但它没有证明其余项。文档和图表任务也是如此。从干净图像里抽取表格,与理解拍摄的幻灯片、电子表格导出、旋转发票,或带有嵌套图形的研究 PDF,不属于同一种难度。

因此,合适的读法应从“42 个基准界定了追问缺失契约的位置”展开,而不能停在“42 个基准证明部署就绪”。对于每个基准或内部评测,团队都应保留屏幕分辨率、坐标约定、应用版本、提示模板、工具 schema、允许重试次数、超时设置、成功标准以及动作后观察方法。缺少这些细节,视觉智能体分数就很难从论文迁移到生产。

思考模式改变成本问题

GLM-4.5V 也继承了快速响应与深层推理之间的拆分。Z.AI 文档描述了一个 Thinking Mode 开关,用于平衡快速响应与更深推理;Hugging Face 卡片则表示,这个开关的工作方式类似 GLM-4.5 语言模型中的对应机制。[1][2] 这一点很重要,因为视觉智能体工作很少是单一形态的任务。

有些调用属于便宜的感知:识别字段、读取按钮标签、概括页面区域、判断某个元素是否可见。另一些调用属于规划:决定点击、滚动、编辑、等待、询问用户,或放弃一条路径。把二者都当作同一种推理问题处理,会浪费资金,也会让智能体慢过它原本要改善的人类工作流。

基础版 GLM-4.5 论文在这里很有帮助,因为它将该模型家族放在智能体、推理和编码能力框架中讨论,并描述了一个更大的 355B/32B-active 模型,以及一个更小的 106B/12B-active Air 变体,二者围绕混合推理和直接响应模式构建。[4] 从模型卡与论文的并列信息可以推断,Z.AI 想在文本智能体和视觉智能体之间建立一致的心智模型:任务局部时使用快速调用,任务需要多步推理或恢复时使用 thinking 调用。[2][4]

这也带来了清晰的评测要求。严肃的 GLM-4.5V 测试不能只问模型有没有完成任务。它还要追问任务是否需要 thinking mode、消耗了多少视觉 token 和输出 token、更便宜的非 thinking 调用是否已经足够,以及同一界面在轻微布局变化后重新运行时结果是否仍能成立。

开放权重让难点可以测试

开放权重分发使这件事超出供应商基准的范围。Hugging Face 页面把模型公开为 zai-org/GLM-4.5V,标注 MIT license,并给出通过 Transformers、vLLM、SGLang 和 Docker Model Runner 进行本地或服务器部署的直接示例。[2] 这让团队可以把评测边界推近自己的真实负载。

对于文档 AI 团队,这意味着在自己的扫描表单上测试模型,而不只看公开 OCR 基准。对于浏览器智能体团队,这意味着用固定测试框架重放真实截图与动作序列。对于软件团队,这意味着衡量基于截图的视觉编码生成的是可维护 UI 代码,还是仅仅看起来合理的 HTML。对于合规团队,这意味着测试含有私密业务数据的截图能否留在获批环境内。

这也是中国开放模型生态在运行层面变得有意思的地方。许多 AI-China 叙事仍围绕模型发布节奏、token 定价,或本土模型能否追上前沿基准展开。GLM-4.5V 指向一个更实际的前沿:开放中国 VLM 能否成为智能体评测系统中的组件,并让企业、研究实验室和工具供应商拥有足够可复现的比较基础。

部署边界仍然很窄

谨慎读法很重要。Z.AI 自身文档和模型卡仍是最强性能主张的主要来源。[1][2][3] 因此,在外部团队复现设置、任务组合、硬件、运行时、提示词和评分逻辑之前,基准排名应被视为方向性信息。一个很高的 GUI 智能体分数,信息量小于一份围绕买方真实屏幕展开、记录完整的失败分析。

基准还会遮住一个用户界面问题。模型可以在某一分辨率下准确定位控件,却在响应式布局变化后失败;可以解析表格,却在分页之后丢失行身份;可以理解一段视频,却无法选择哪一帧应触发动作;可以根据截图生成前端代码,却忽略组件状态、无障碍标签或生产设计系统约束。这些内容都应进入正文。它们构成演示与工具之间的差别。

反证条件很直接:如果 GLM-4.5V 的亮眼表现主要停留在供应商选择或定义松散的基准上,而外部测试框架无法在浏览器、文档、视频和 GUI 动作之间维持可靠屏幕契约,那么“视觉智能体”叙事就比排行榜显示得更薄。更强的证明将来自公开、可复现的任务套件,并附带动作轨迹、截图、工具调用、延迟、token 成本和失败标签。

接下来观察什么

第一项观察,是 GLM-4.5V 是否进入更多独立 GUI 智能体和文档智能体评测,并给出完整测试框架细节,超出聚合排名本身。第二项观察,是通过 vLLM 和 SGLang 的开放服务能否为多模态工作负载提供可预期的延迟、内存与批处理行为。[2] 第三项观察,是 Z.AI 后续 GLM-V 系列能否继续把原生工具使用和长上下文视觉工作绑定到可复现任务契约上,避免功能清单扩张快过评测纪律。[3]

这就是 GLM-4.5V 应当进入 AI-China 档案的原因。它不只是一个更大的视觉模型。它是一个测试案例,用来观察国内开放模型技术栈能否让视觉智能体变得可测量:不只问“屏幕显示了什么”,还要问“模型看到了什么、指向哪里、做了什么、什么发生了变化,以及另一支团队能否重放这个结果”。

来源

  1. Z.AI Developer Documentation, "GLM-4.5V" (model size, modalities, pricing surface, output-token limit, usage categories, thinking mode, API examples).
  2. Z.AI, zai-org/GLM-4.5V Hugging Face model card (open model distribution, GLM-V family framing, benchmark scope, local/runtime deployment examples, MIT license).
  3. GLM-V Team, "GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning," arXiv:2507.01006 (2025; revised 2026).
  4. GLM-4.5 Team, "GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models," arXiv:2508.06471 (2025).
  5. Wikimedia Commons, "File: Emmanuel R. Goffi, keynote at the World AI Conference (WAIC) 2025 in Shanghai-1.jpg" (real WAIC 2025 conference photograph used as the article image).