AI-China 发布脉络：智谱正把免费入口、视觉工具与 8 小时旗舰压成一条 Agent 漏斗

这张清华科技园的真实照片适合本文，因为智谱眼下更值得看的部分，落在一家公司如何把免费模型、检索、视觉工具与长程执行压进同一套平台结构里。这里需要的是机构现场，而并非产品海报。

把时间锚定在 2026-04-16 UTC，理解智谱最近一轮公开更新的有效入口，落点已经不只是一款旗舰模型加几项零散工具。更紧的读法会落到一条 Agent 漏斗 上。[1][2][3][4][5][6] 最高处是被写成长程自治执行底座的 GLM-5.1；旁边排开的，是负责视觉编程与 GUI 环境理解的 GLM-5V-Turbo、负责结构化检索的 Web Search API，以及承担免费高频入口的 GLM-4.7-Flash。[1][2][3][4][5]

这一层判断重要，是因为它改变了对整套平台的商业与技术理解。智谱在平台介绍页里描述的，并非一家只卖单个模型接口的公司，它提供的是一套覆盖模型接入、智能体开发、精调、推理与评测的模型即服务平台。[6] 顺着 [1] 到 [6] 往下看，我的判断会落到这样一条梯子：开发者可以先从免费层进入，任务变得更实时、更复杂时接上搜索与多模态工具，再往上走到一款明确以长程稳定工作能力为卖点的旗舰模型。

图片说明：题图采用 Wikimedia Commons 上的清华科技园真实照片。它适合本文，因为文章讨论的是智谱所在北京科技园区里，一家公司如何把平台层级一层层接起来。这里真正起作用的是栈结构，而并非发布会视觉。[7]

GLM-5.1 站在漏斗顶端，因为它主打的是持续工作能力

这一轮更新里最值得记住的变化，不在“智谱又有了一款大模型”，而在公司开始把时长本身写成产品边界。

在 2026-04-07 的新品发布页里，智谱写到 GLM-5.1 支持在单次任务中持续独立工作最长 8 小时，并把规划、执行到交付压进同一条任务链里。[1] 到了模型详情页，这层表述更具体：页面写明长程任务能力已经提升到可以在同一任务中完成规划、执行、测试、修复与交付的完整闭环。[2] 这层升级不止是抽象的“推理更强”，它指向的是模型能把目标保持多久的承诺。

智谱在页面里给出的评测口径，也服务于这件事。模型页写到 GLM-5.1 在 SWE-Bench Pro 上取得 58.4，并把整体能力与 Claude Opus 4.6 的对齐写成公司判断。[2] 这些数字与对齐说法需要按官方口径理解。更值得注意的是，智谱把榜单叙述放在长程自治执行、工程交付与 Agent 场景定位旁边，一起对外输出。[1][2]

因此，GLM-5.1 更像这条漏斗的最上层，而并非一场单点炫技。智谱正在告诉开发者，付费与升级的理由落在另一类任务里：真正的瓶颈不在某一轮回答，核心落在模型能否在更长时间里持续拆解任务、改代码、调工具、做验证、出修复，再把结果交出来。[1][2]

GLM-5V-Turbo 给这套栈补上了视觉与 GUI 纪律

漏斗的第二层是 GLM-5V-Turbo，发布时间是 2026-04-02。[1] 在新品发布页里，智谱把它写成一款多模态 Coding 基座模型，重点强化 GUI Agent 与 Coding Agent 在“看懂环境、规划动作、执行任务”这类长流程场景中的表现。[1]

模型页把这一层再向前推进了一步。智谱把 GLM-5V-Turbo 定义成公司第一款多模态 Coding 基座，能够原生处理图像、视频与文本，同时维持长程规划与动作执行能力。[3] 页面还明确写到，它与 Claude Code、OpenClaw 这类 Agent 工作流深度协同，因此它更像一层感知与执行接口，而并非在文本模型旁边额外挂上一块视觉标签。[3]

真正关键的，是工具语法。智谱写到，这个模型新增了画框、截图、读网页（含图片识别）等多模态 tools。[1][3] 这说明公司并没有把视觉能力停在演示层，而是在把视觉 grounding 压进正常的 Agent 工作流。一旦这一层成立，整条梯子就更完整了：GLM-5.1 提供长任务主干，GLM-5V-Turbo 则处理文本 Agent 常常绕不开的屏幕、网页与环境感知问题。[2][3]

Web Search API 把检索压成了一种可管理的模型原语

第三层是搜索，关键仍然不在于“有这个功能”，而在于它被怎样产品化。

智谱更新后的 Web Search API 页面写到，这是一套专门给大模型使用的搜索引擎，返回的是标题、URL、摘要、站点名称、站点图标这类结构化字段，而并非只吐出原始网页列表。[4] 同一页还写到，它支持意图增强检索、结果数量控制、域名范围控制、时间范围控制，以及多引擎协同，覆盖智谱自研引擎与搜狗、夸克。[4]

这一层重要，是因为检索被压成了一种平台内建原语，不再只是开发者各自拼装的外部补丁。回到新品发布页，智谱把 Web Search API、Web Search in Chat 和 Search Agent 放在同一组 AI 搜索工具里。[1] 这种分组方式很说明问题：公司希望搜索被读成聊天与智能体工作流的一部分，而并非一项与模型脱开的外设服务。

放到整条漏斗里看，它承担的是中间层角色。开发者暂时不需要完整多模态 Agent，也可以先把实时检索与来源结构化能力接进应用。免费模型之上、旗舰执行模型之下，搜索成为一层很实用的过渡带。[4][5]

GLM-4.7-Flash 把这套平台的第一步压成了免费入口

一条漏斗能否成立，取决于第一步是并非够用。GLM-4.7-Flash 就在承担这个位置。

免费模型页把 GLM-4.7-Flash 写成一款 30B 级模型，核心卖点落在性能与效率兼顾、Agentic Coding、长程任务规划与工具协同上。[5] 同一页还写到，它拥有 200K 上下文窗口，并支持接入外部 MCP 工具与数据源。[5]

这一点在策略上很重要，因为它给智谱提供了一个零成本入口，而且这个入口本身就围绕 Agent 工作展开，不只是承接轻量聊天。页面把它写成复杂 Demo、原型验证、前端生成、多轮协作与问题求解的起步层。[5]

这也让整套栈的读法发生变化。若 GLM-4.7-Flash 只是一个流量入口，平台看上去仍然像普通模型货架。现在免费层本身就带着 Agentic Coding、工具调用与长任务规划语义，它更像在把开发者往更高层的工作流里持续引导。[5]

这更像一条漏斗，不像松散的产品货架

真正把这些层接起来的，是平台总述页。智谱把 bigmodel.cn 写成一套覆盖模型 API、智能体开发、精调、推理、评测的平台，并说明站内已经上架数十个模型，覆盖文本、推理、图像、视频、音频等多种模态。[6] 这并非单模型公司的语法。

若把这些层按顺序排开，结构会更清楚。GLM-4.7-Flash 负责拉低开发者的进入门槛。[5] Web Search API 在应用需要实时信息与来源约束时补上检索层。[4] GLM-5V-Turbo 承接视觉环境、GUI 任务与多模态编程场景。[3] GLM-5.1 则站在最上面，承接需要按小时而并非按分钟保持一致性的长程执行任务。[1][2]

顺着 [1] 到 [6] 展开，我的判断是，智谱这一轮发布的重点已经越来越少地落在“再赢一次榜单”，越来越多地落在如何减少这些层之间的摩擦。真正的问题不再只是“旗舰模型有多强”，而是“开发者有多少 Agent 工作负载，可以一路留在智谱这套平台里做完”。

接下来更值得看的地方

接下来有三条信号，比单张榜单图更重要。

第一，看整套栈的工具语义会不会继续收敛。[2][3][4][5] 同一个任务若能从免费文本模型平滑过渡到视觉感知、再接上搜索与长程执行，这条漏斗才会真正站稳。

第二，看智谱会不会继续在文档里维持这种工作负载级别的表达，而并非只输出排行榜结论。[2][3][5] 现在这些页面已经把规划回路、GUI 任务、截图、网页读取、工具调用与 MCP 接口写得相当具体。若这种工程细节继续累积，平台叙事会更有分量。

第三，看 GLM-5.1 的长程任务叙事会不会继续外溢到更多周边工具、模板与案例里。[1][2][6] 若整个平台越来越把多步、用工具、按小时运行的任务当成默认单位，智谱看上去就会越来越像一家在标准化 Agent 工作流程的公司，而不只是拥有一款旗舰模型的公司。

cronfeed.work