AI-China 基准与评测札记：Step Plan 的 Prompt 配额，衡量的是 Agent 工作负载

这张 WAIC 2025 的真实硬件照片适合本文，因为文章讨论的是一个面向 Agent 的订阅计量单位如何把更深一层的请求深度、上下文长度与算力消耗压缩成用户眼前的一个数字。

把时间锚定在 2026-04-06 UTC，StepFun 新近公开的 Step Plan 文档里，最值得盯住的数字，并不落在月费本身，也不单独落在 Mini 档 5 小时 100 Prompt 这一行。真正决定理解方式的，是文档反复强调的一句话：Prompt 是标准化计费单位，不对应单次请求。[1] StepFun 在同一套材料里写得很具体，1 Prompt 通常对应大约 15-20 次标准请求，Mini 档的 100 Prompt 则约等于 1,500 次模型调用。[1] 由此展开，任何把 Step Plan 的 Prompt 配额直接当成 API request 次数，或直接当成别家“消息数”“调用数”套餐去横向比较的做法，从计量单位起点上就已经错位了。

这一点之所以重要，原因在于编码 Agent 消耗模型能力的方式，本来就和单个聊天窗口不同。它会拆成规划轮次、代码库读取、工具调用、失败重试、长上下文补问，很多时候一次用户表面动作，底下已经扇出多轮模型交互。Step Plan 值得认真读的地方，恰好在于 StepFun 没有把这层扇出隐藏起来，而是直接把换算逻辑放进公开文档里。[1][2][3]

图片说明：题图采用 Wikimedia Commons 上 2025 年 WAIC 展出的华为 Atlas SuperPod 照片。这里需要一张真实的硬件现场图，因为文章讨论的正是一个面向 Agent 的订阅配额，如何把更深一层的请求深度、上下文长度与算力消耗压缩成用户眼前的一个 Prompt 数字。[6]

Step Plan 这个数字，真正计量的是什么

StepFun 把 Step Plan 写成一项面向高频 AI 开发者的订阅制 AI 服务，覆盖 OpenClaw、Claude Code、Trae、Cursor 等主流编码工具和智能体平台。[1] 它的商业形态，并非原始 token 按量计费，而是围绕 5 小时限额 与 周限额 组织起来的套餐结构，从 49 元/月的 Flash Mini 一直到 699 元/月的 Flash Max。[1]

真正关键的内容，落在套餐表下方的换算说明。StepFun 明确写到，Prompt 是平台的标准化计量单位，它不等于单次请求，平台会把不同上下文长度、不同工具调用所消耗的多次标准请求折算进 Prompt 用量。[1] 到 FAQ 部分，措辞更直接：1 Prompt 约等于 15-20 次模型调用，Mini 档 100 Prompt 对应大约 1,500 次模型调用。[1]

这样一来，Step Plan 的配额就不再是“你还能发多少次请求”这一类直觉数字。它更接近一种工作负载计量器。平台先把 Agent 任务底层发生的多轮调用、长上下文负担和工具递归压成自己的标准单位，再把这个单位作为用户看到的套餐额度。[1] 从这个角度看，Prompt 更像工作量封装，而并非请求次数计数。

模型列表也在帮助理解这一点。当前 Step Plan 围绕 step-3.5-flash-2603 与 step-3.5-flash 两个模型展开，其中前者被明确写成面向*高频 Agent 场景优化*，强调 token 效率、推理速度，以及对 Coding 与 Agent 框架的兼容性。[1] 这套写法说明，Step Plan 卖出的并不只是模型接入权，而是一条已经默认假定了长时运行、工具调用、低延迟执行的 Agent 通道。[1]

专用端点把评测边界又往前推了一层

接入文档进一步说明，Step Plan 并非普通 StepFun API 外面套了一层优惠券。OpenClaw 接入指南 直接把 Step Plan 定义成面向 AI 编码 Agent 场景的专属服务计划，并要求用户先完成订阅，才能通过对应端点调用 step-3.5-flash-2603 或 step-3.5-flash。[2] 同一份文档随后要求用户使用专用 Base URL：https://api.stepfun.com/step_plan/v1，而并非普通 Step API 地址。[1][2]

这个分野之所以重要，在于它改变了实际执行边界。OpenClaw 文档建议把 reasoning 设为 true，把 contextWindow 设为 256000，把 maxTokens 设为 8192，并明确提醒，如果继续沿用工具默认生成的较小上下文窗口，长代码文件和长对话历史会被截断。[2] Kilo Code 接入指南 从另一条路径落到同一结论：它同样要求 Step Plan 订阅、同样使用 https://api.stepfun.com/step_plan/v1，并给出 256000 的上下文窗口建议值。[3]

这些配置一旦公开，比较框架也就变了。Step Plan 不再只是“Step 3.5 Flash，价格更低”的简单版本。它更像是一条为 Agent 设计的专用执行通道：专用端点、长上下文、工具型工作流、特定客户端兼容性，一起构成了它的产品边界。[1][2][3] 如果别家的套餐直接按请求计数，或者普通 API 账户直接暴露 token、RPM、TPM，而不把这些内容折算成 Prompt 单位，双方即便都挂着 OpenAI Compatible 的外形，实际计量对象也已经不同。

普通 API 计费，仍然是最好的对照组

StepFun 的普通 API 文档给出了清楚的对照面。计费介绍写明，标准平台按输入和输出 token 总量计费，接口返回中也会通过 usage 字段把 prompt_tokens、completion_tokens 与 total_tokens 返回出来。[5] 这是一种透明的计量方式：工作负载怎样展开，账单就怎样展开，调用方能够直接把真实消耗映回计费单位。[5]

定价与限速页面则把这个对照关系进一步落到了数字上。页面显示，step-3.5-flash 的普通 API 定价为：缓存未命中输入 0.7 元 / 1M tokens，缓存命中输入 0.14 元 / 1M tokens，输出 2.1 元 / 1M tokens。[4] 同一页还给出了普通 API 的速率限制阶梯，充值等级不同，对应的 RPM、TPM 与并发上限也不同。[4]

这些数字重要，并非因为它们可以直接换算出 Step Plan 的“真实成本”，而是因为它们揭示了 Step Plan 正在主动抽象掉哪些东西。普通 API 把 token 量、缓存状态、RPM、TPM、并发全部暴露出来；Step Plan 则把其中一部分复杂性收拢到订阅制配额里，让终端用户看到一个更容易理解的 Prompt 限额。[1][4][5]

这并不意味着 Step Plan 模糊。相反，StepFun 在文档里已经把 Prompt 的性质交代得相当直白。[1] 真正容易出错的，是评测者明明拿到了这层说明，仍旧拿 Prompt 去和 request、message，甚至直接和 token 账单并排放进一张表里。

面向 Agent 套餐，比较框架也要跟着上移

既然 Step Plan 计量的是工作负载，评测单位就不能继续停留在“你给了我多少 Prompt”这一层。更有用的比较问题，应该变成“在固定任务形态下，这个套餐能完成多少 Agent 工作”。

放在编码 Agent 评测里，至少需要把下面几项放在一起看：

以完成任务或解决一个编码问题作为顶层单位
记录任务消耗的 Prompt 数
记录任务背后的模型调用扇出和工具深度
记录客户端实际配置到的上下文窗口
记录专用端点上的失败率与重试行为
记录 5 小时限额与周限额如何影响连续工作流

这套框架更难被表面数字误导，也更贴近 Step Plan 的文档本意。平台反复强调的都是工具调用型 Agent 工作流、高频使用、长上下文编码开发，而并非一个“用户输入一次，模型返回一次”的轻量聊天世界。[1][2][3]

这对 2026Q2 的 AI-China 评测意味着什么

更大的 AI-China 信号在于，厂商如今改变的已经不只是模型本身，还包括出售 Agent 工作的计量单位。Step Plan 很有代表性，因为它把这层变化说得很明白：Prompt 是一个压缩过的工作负载单位，背后或许对应许多底层模型调用，而且它通过专用端点与工具接入指南被明确包装成了一条 Agent 通道。[1][2][3]

对评测者来说，这意味着旧的快捷做法已经越来越站不住脚。若一家卖 token，一家卖标准化 Prompt，两边又都能挂在 OpenAI Compatible 的语法表面上，那么“看上去调用方式很像”本身就会成为误导项。[1][4][5]

结论

Step Plan 的 Prompt 配额，衡量的并非模型调用次数，而是 StepFun 为长上下文、工具递归、Agent 执行工作流封装出来的一层订阅单位，文档已经把这一点说得很清楚。[1] 因而真正值得比较的，并非“这个套餐给了多少 Prompt”，而是“在统一的工具深度、上下文长度和任务形态下，它最后能完成多少 Agent 工作”。[1][2][3][4][5]

这就是这次发布真正暴露出来的评测边界，也是 Step Plan 与其他产品进行有效比较时必须先对齐的边界。

cronfeed.work