GLM-5.2 把开放 agent 竞赛推向上下文窗口测试

2025 世界人工智能大会上的智谱 AI 展台。封面使用真实活动照片，不是生成图像或分析图表。[6]

截至 2026-06-25T03:33:19Z UTC，理解 GLM-5.2 的有效角度，不只是 Z.ai 又发布了一个高分中国模型。更清晰的信号在于，开放模型竞赛正在转向一个难度更高的问题：当 agent 需要容纳整个代码仓库、跨多步制定计划、反复调用工具，并让运行团队能够检查失败面时，一个开放权重模型还能保持多少实用性。Z.ai 的公开材料把 GLM-5.2 放在 1M-token 上下文、长周期工作、代码 agent 能力，以及通过常见推理框架部署这些主题之下。[1][2]

因此，这是一篇带有边界的基准札记。Z.ai 的代码仓库报告了 GLM-5.2 在代码基准上的强劲成绩，包括 Terminal-Bench 2.1 上 GLM-5.2 相对 GLM-5.1 的 81.0 vs. 62.0，以及 SWE-bench Pro 上的 62.1 vs. 58.4。[2] 这些数字有意义，但仓库页面没有给出足够的 harness 细节，无法把它们当作完全可迁移的工程事实。合适的姿态是方向性的：GLM-5.2 正在宣称自己在长上下文代码 agent 上有显著提升，而这个宣称值得关注，因为它绑定的是开放权重和本地服务路径，不只是托管聊天界面。[2]

发生了什么变化

标题级变化，是上下文成为运行表面。Z.ai 称 GLM-5.2 是其面向长周期任务的最新旗舰模型，并且在 GLM-5 系列中首次把这种能力放在扎实的 1M-token 上下文之上。[2] 同一来源列出三项实际升级：扎实的 1M 上下文、更强的代码能力并支持灵活的 thinking effort，以及名为 IndexShare 的架构变化。按照描述，IndexShare 在 1M 上下文下把每 token FLOPs 降低 2.9x，同时把投机解码接受长度最高提升 20%。[2]

这些细节比排行榜说法更重要。对做 agent 的团队来说，上下文长度不只是“更多 prompt”。它会改变一次性可加载的内容：依赖图、迁移说明、测试日志、源文件、生成的计划、此前失败的尝试，以及评审约束。1M-token 窗口不能保证判断质量，但它减少了模型在看清代码库形状之前所需的检索编排。若模型还能在本地提供服务，或通过熟悉的推理运行时接入，选择就会从单纯评测问题转为运行问题。[2]

本地服务清单也是信号的一部分。Z.ai 的仓库指出，GLM-5.2 支持通过 SGLang、vLLM、Transformers、KTransformers、Unsloth，以及面向 Ascend 的推理框架部署。[2] 这不表示每个团队都能轻松自托管一个 744B-A40B 混合专家模型。它表示这次发布面向的是关心放置方式、延迟、硬件路径和可检查性的基础设施人员。放在中国 AI 语境中，GLM-5.2 试图让“开放”指向可运行、可集成，而不只是可下载。

比较对象

比较对象也变了。DeepSeek 于 2026-04-24 发布的 V4 Preview 同样把 1M 上下文放在中心位置：DeepSeek 称 V4 Preview 已开源，列出 V4-Pro 为 1.6T total / 49B active parameters，V4-Flash 为 284B total / 13B active parameters，并称 1M 上下文现在已经成为官方 DeepSeek 服务的默认配置。[3] 它的定价页面进一步给出 API 合约：V4-Flash 和 V4-Pro 都暴露 OpenAI 格式和 Anthropic 格式的 base URL，支持工具调用，并列出 1M 上下文与 384K 最大输出。[3]

阿里巴巴的 Qwen3.7-Max 则从 agent 侧推高闭源前沿。阿里巴巴称 Qwen3.7-Max 面向代码编写与调试、办公工作流自动化、MCP 集成、多 agent 编排，以及跨数百或数千步的自主执行而设计。[4] Qwen3.7 文章对部分测试给出少见的详细评测边界，包括 Terminal-Bench 2.0 设置、SWE-Bench 脚手架、上下文窗口，以及 kernel 工作中的硬件假设。[4] 这种披露很重要，因为它帮助读者区分真实 agent harness 与含混的“代码基准”说法。

百度的 ERNIE 5.1 则提供了另一种压力点。百度称 ERNIE 5.1 继承 ERNIE 5.0 的预训练基础，同时把总参数压缩到约 one-third，活跃参数压缩到约 one-half，预训练成本压缩到可比模型的约 6%，并把这次发布与面向自主决策 agent 的分离式异步强化学习基础设施联系起来。[5] 这里，成本效率与 agent 训练被并列摆放。

把这些发布放在一起看，中国模型竞赛正在从单一分数转向四类合约：上下文长度、agent 脚手架、服务表面，以及迁移摩擦。GLM-5.2 在这片场域中的位置很具体。它没有把胜负押在最封闭的专有模型形态上。它测试的是，一个带大上下文窗口的开放权重代码 agent，能否接下原本会默认流向 Qwen、DeepSeek、ERNIE 或西方闭源模型的工作负载。[2][3][4][5]

评测边界

有三条边界需要明说。

第一，GLM-5.2 已发布的代码基准增量，应在看到更完整设置之前被视为厂商报告的方向性结果。仓库给出了基准名称和分数，但在 prompt、工具、超时规则、样本数量、环境约束和模型服务设置上，缺少足以让读者仅凭本文完全复现的端到端细节。[2] 这没有让该宣称失去价值。它限定了较合适的推断：“Z.ai 正在把 GLM-5.2 定位为一次重要的长上下文代码 agent 升级”，而不是“每个团队都会在生产环境看到同样排序”。

第二，上下文不等同于代理能力。一个 1M-token 模型仍会在忽略测试、过拟合过期指令、忘记项目约束，或在未理解所有权边界时写出大范围补丁的情况下失败。对 GLM-5.2 的实际评测，应包含仓库级任务、隐藏测试、长期分支、依赖更新和回滚要求。一个能读更多文件却不能从自身错误中恢复的模型，是更大的自动补全引擎，不是可靠 agent。

第三，开放权重改变风险的位置，并没有消除风险。它给团队带来检查、自托管、微调和采购议价空间，同时也把服务、安全、评测和成本核算推给采用者。对严肃工程组织而言，GLM-5.2 的价值将取决于 1M 上下文能否落在真实运行预算之内，推理框架能否以可预期方式处理该模型，以及代码 agent trace 是否足以供评审和审计使用。[2]

接下来观察什么

第一项观察，是独立复现。如果第三方评测者使用公开 harness、固定超时、清晰的工具权限和按成功计费的成本报告，重新运行 Terminal-Bench、SWE-bench Pro 和 agentic coding 任务，基准叙述会更有分量。原始通过率不够；长周期 agent 还需要耗时、工具调用次数、重试行为和失败分类。

第二项观察，是本地服务现实。Z.ai 列出了数条推理路径，包括 vLLM 和 SGLang，以及面向 Ascend 的支持。[2] 运行问题在于，团队能否以稳定延迟、可接受的内存压力、可预期的上下文缓存和可调试的失败方式运行 GLM-5.2。若答案是否定的，即便开放，该模型仍主要停留在托管选项或专门实验室选项。

第三项观察，是工作流适配。DeepSeek 和阿里巴巴已经把 OpenAI 与 Anthropic 兼容表面、工具调用、面向 MCP 的 agent 使用，以及长上下文默认配置打包进各自平台。[3][4] GLM-5.2 的开放权重优势，只有在它能够进入同一类代码 agent 工具和企业评审流程，且不要求一套专用 stack 时，才最有意义。

狭义结论是：GLM-5.2 重要，是因为它把中国开放模型叙事转成了一项工程测试。宣称已经不只是“开放模型正在追赶”。它变成了“一个开放的中国模型可以容纳仓库级上下文，跑在常见推理 stack 上，并在长周期代码 agent 任务中竞争”。这是更强、也更容易被证伪的宣称。下一步证据不会来自另一篇发布文章，而会来自外部团队能否以生产环境可接受的成本和失败率，复现有用的 agent 工作。[1][2]

cronfeed.work

GLM-5.2 把开放 agent 竞赛推向上下文窗口测试

发生了什么变化

比较对象

评测边界

接下来观察什么

Sources

Recommended In ai china