截至 2026-05-29 UTC,StepFun 的 Step 3.7 Flash 发布更适合被读作一次部署更新,而不只是一轮模型升级。发布标题下是一款 198B 参数的稀疏 MoE 视觉语言模型,每次激活约 11B 参数,配有 1.8B 参数视觉编码器,支持原生图像和视频输入,上下文窗口达到 256K。[1][2][3] 更重要的信号来自 StepFun 围绕这些规格所包装的部分:可选择的推理层级、面向缓存的 API 定价、Hugging Face 权重、NVIDIA NIM 支持,以及通过 vLLM、SGLang、Transformers、llama.cpp 的明确接入路线。[1][2][3]
这使 Step 3.7 Flash 与 AI-China 线索里已经出现过的旧 StepFun 叙事拉开距离。公司 4 月呈现的重点集中在云端研究、本地桌面运行、Step Plan 配额和 StepClaw 式工作流封装。Step 3.7 Flash 把同一家公司推入更具体的模型赛道:一个多模态 agent 模型,而 StepFun 和 NVIDIA 都围绕感知、搜索、推理、编码 agent、文档智能与生产级服务来描述它。[1][2]
图片语境:封面使用 City News Service / Shanghai Daily 的真实 StepFun WAIC 上海展台照片,该处署名图片来源为 Ti Gong。[6] 它不是示意图、图表、生成图像,也不是模型卡截图。这张图有用,是因为这次发布的核心在于把模型能力转化为一个公开部署界面。
变化所在
清晰的发布增量在于,StepFun 已经把 Flash 线从一个文本优先的快速推理模型,推进成一个多模态 agent 模型。Step 3.5 Flash 已经承载了公司的效率命题:一个 196B 稀疏 MoE 模型,每个 token 激活约 11B 参数,具备 256K 上下文,并被放在工具调用和长上下文 agent 的定位中。[4][5] Step 3.7 Flash 保留了主动参数叙事,同时加入视觉编码器与原生多模态工作负载框架。[1][2][3]
这一变化重要,是因为 StepFun 最强的公开主张已经从“大的模型记忆、小的激活计算”,扩展为“大的模型记忆加上感知能力,可以作为 agent 底座提供服务”。官方模型卡称 Step 3.7 Flash 面向把感知、搜索和推理结合起来的工作流,包括金融报告解析、跨来源验证和并发编码 agent。[1] NVIDIA 的发布文章呼应了同一种部署解读,描述了使用图像和视频输入、文档智能、NIM 容器以及 OpenAI 风格推理端点的企业工作流。[2]
有三个产品细节值得分开看。第一,推理层级现在被明确列出:low、medium、high。[1][2] 这给开发者提供了一个运行时旋钮,用来在速度与深度之间调节,而不是把每个任务都送入同一个隐藏的思考预算。第二,StepFun 公布了面向缓存的定价:缓存未命中时,每百万输入 token 0.20 美元;缓存命中时,每百万 0.04 美元;每百万输出 token 1.15 美元。[1] 第三,该模型覆盖 StepFun 全球与中国平台、OpenRouter、NVIDIA NIM 和 Hugging Face,并释放了更多供应商合作信号。[1]
对 AI-China 而言,这一组合比单张基准测试表更能说明问题。中国模型竞争正在从排行榜发布转向控制界面:agent、编码工具、模型路由器、订阅方案和部署外壳。Step 3.7 Flash 正落在这一趋势里。它是一款被设计成放入长时间运行工作流的模型发布,而不是只用于展示成绩的模型发布。
部署包为何成为叙事核心
最实际的证据在服务说明里。Hugging Face 卡列出了 vLLM、SGLang、Transformers 和 llama.cpp 的部署路径,还给出一个具体的 NVFP4 路径,使用 stepfun-ai/Step-3.7-Flash-NVFP4、modelopt 量化、FP8 KV cache 对齐,以及 step3p5 推理和工具调用解析器。[1] 这些不是营销形容词。它们是一个模型进入运行状态,或停留在理论状态的分界点。
NVIDIA 的文章强化了这种理解。NIM 将 Step 3.7 Flash 打包为一个优化后的容器化推理微服务,为本地、云端和混合使用提供标准化 API;NeMo 支持则被呈现为一条从 Hugging Face checkpoint 出发的首日微调路线。[2] 文章还称,该模型可使用监督式微调和节省内存的 LoRA 做定制,并给出 Hopper 微调吞吐示例:600 tokens/sec。[2]
对开发者而言,这里的含义很窄:StepFun 正在试图缩小已发布多模态模型与可部署企业 agent 之间的距离。团队仍然要测试数据政策、延迟、图像和视频预处理、prompt 包装、缓存行为和工具执行。但这个发布包已经点名服务框架和硬件假设,而这些因素决定了相关测试能否在较少专门胶水代码的条件下展开。[1][2]
边界也在这里。模型卡指标来自第一方或合作伙伴发布,基准可比性取决于测试框架细节。StepFun 报告了若干强分数,例如 SimpleVQA (Search) 的 79.2、ClawEval-1.1 的 67.1、SWE-Bench PRO 的 56.3,同时也承认在 Terminal-Bench 2.1 和 GPDVal-AA 等部分系统交互基线上相对位置较低。[1] 这些数字作为发布主张具有参考价值,但运营层面的问题仍然是,同一个模型进入买方真实文档、GUI、代码库或工具调用环境后能否维持表现。
StepFun 的策略现在更连贯
StepFun 2026 年 1 月的融资消息为这次发布提供了公司层面的背景。City News Service 报道称,公司在 B+ 轮融资中获得超过 人民币 50 亿元资金,支持方包括国资和产业投资者;到 2025 年底,StepFun 模型已经通过手机品牌合作被用于超过 4200 万台设备。[6] 同一篇报道还把 StepFun 的工作同上海“AI + 终端”战略,以及通过吉利落地的车辆部署联系起来。[6]
把这些背景放在一起看,Step 3.7 Flash 更像一次整合,而不是突然转向。StepFun 一直试图占据模型基础设施与终端侧 agent 之间的位置:手机、汽车、桌面助手、研究 agent 和编码工具。一个具备明确服务路径的快速多模态 MoE,正是这一策略在模型层的版本。[1][2][6]
重要变化在于,多模态拓宽了可信终端工作流的集合。纯文本模型可以帮助编码 agent 或研究助手。原生视觉语言模型还可以检查屏幕、解析图表、阅读幻灯片、比较文档图像、理解可视化 UI 状态,并把这些观察同搜索和代码执行结合起来。[1][2] 这不能证明 StepFun 已经解决了 agent 可靠性问题。它确实让公司的“AI + 终端”叙事在技术层面更容易成立,相比模型层停留在纯文本能力时更有支撑。
后续观察点
第一个观察点,是可选择推理层级能否成为真正的路由原语。如果 low、medium、high 能清晰映射到延迟、成本和成功率之间的权衡,StepFun 就能让 agent 编排更具预测性。如果它们表现为模糊预设,生产团队仍然需要自己的门控逻辑。[1]
第二个观察点,是缓存行为。定价表让缓存命中比缓存未命中的输入 token 便宜 5x。[1] 这会强烈鼓励稳定的 prompt 脚手架、持久任务上下文,以及重复使用的文档或代码仓库前缀。同时也意味着,团队只有测量实际缓存命中率,标题 token 价格才有意义。
第三个观察点,是多模态服务成熟度。NVIDIA NIM、vLLM、SGLang 和 llama.cpp 支持让这次发布更容易测试,但长上下文图像和视频工作流仍会在内存压力、预处理差异、工具调用格式和 UI grounding 边缘情况上出问题。[1][2] 真正证明力将来自可重复部署,而不是一次性演示。
因此,这次发布的窄结论很清楚。Step 3.7 Flash 没有终结中国模型竞赛。它做了一件更具体的事:把 StepFun 的速度与稀疏性叙事转化为一套面向 agent 工作负载的多模态部署包。[1][2] 在模型质量快速变化的市场里,这个部署包会成为更持久的信号。
来源
- StepFun,
stepfun-ai/Step-3.7-FlashHugging Face 模型卡(2026 年 5 月;模型规格、多模态能力、基准测试主张、定价、可用性和部署示例)。 - NVIDIA Technical Blog,"Run Step 3.7 Flash on NVIDIA GPUs with Enterprise-Ready Multimodal AI"(2026 年 5 月 28 日;NIM、NeMo、部署、模型规格和企业工作流框架)。
- StepFun,"Step 3.7 Flash" 静态模型页面(模型卡链接的官方发布页;可用性、定价、部署和能力摘要)。
- StepFun,
stepfun-ai/Step-3.5-FlashHugging Face 模型卡(此前文本优先 Flash 效率叙事的基线:196B 总参数、约 11B 激活参数、256K 上下文,以及 agent / coding 定位)。 - arXiv,"Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters"(此前 Flash 架构和效率框架的技术报告)。
- City News Service / Shanghai Daily,Zhu Shenshen,"StepFun Secures Record 5-Billion-Yuan Funding, Appoints New Chairman"(2026 年 1 月 28 日;融资、设备部署背景,以及真实 WAIC 展台照片的来源页面)。