截至 2026-05-07 UTC,理解 DeepSeek 2026 年 4 月 24 日推出的 V4 预览版,最有效的入口已经离开“又一轮前沿模型 headline”,转向一场更有分量的接口重置。DeepSeek 自己的发布说明写明,1M 上下文从现在起成为官方服务的默认标准,而并非一条昂贵的特殊通道;API 文档同时写清,deepseek-v4-prodeepseek-v4-flash 都支持这一上下文长度;旧有公开模型名 deepseek-chatdeepseek-reasoner 也已经被文档定义为 deepseek-v4-flash 的非思考模式与思考模式兼容映射,并将在 2026-07-24 之后停止使用。[1][2][3]

这组动作的重要性,高过一条孤立的榜单结论。供应方若保持 base URL 不变,把旧模型名改写成别名,再把超长上下文上限同时放进两条新模型线里,它真正想移动的是开发者习惯,而不只是排行榜印象。[2][3] 放在 ai-china 的语境里,这次发布更适合被看成一场默认表面争夺:DeepSeek 正在试图让百万上下文的 DeepSeek成为智能体建设者、API 集成人员与兼容性优先工具链心里最自然的起点。

配图说明:题图采用 Wikimedia Commons 上拍摄于杭州西湖对岸的真实城市照片。这里需要的正是这种现实场景,而并非一张悬空的模型结构图。本文讨论的重心落在一家公司如何重新规定长上下文 AI 被命名、被计价、被接入的方式。[6]

两条模型线首先是一种打包方式

DeepSeek 的发布说明把公开表面切成 DeepSeek-V4-ProDeepSeek-V4-Flash 两条线。[1] 技术报告把这层切分写得更实。V4-Pro 是一条 1.6T 参数、49B 激活参数 的 MoE 模型,V4-Flash 则是 284B 参数、13B 激活参数,两者都支持 100 万 token 上下文。[4] 发布说明把 Pro 摆成旗舰路线,重点压在世界知识、推理与 agentic coding;Flash 则被摆成更快、更便宜的选择,同时又强调它在推理和简单智能体任务上与 Pro 的距离并不远。[1]

定价页让这种分工更具操作意义。deepseek-v4-flash 的 *cache-miss 输入价格*是 每 1M tokens 0.14 美元输出价格每 1M tokens 0.28 美元deepseek-v4-pro 则在 2026-05-31 15:59 UTC 之前维持临时折扣,输入 miss 0.435 美元输出 0.87 美元。[2] 这说明 DeepSeek 在同时做两件事。一方面,它给旗舰线加上一段补贴窗口,鼓励外部试用;另一方面,它也很直白地让市场看清哪一条线更适合成为日常兼容层。真正更容易沉淀成默认值的,会是 Flash 这一路;文档把 Flash 写成更容易停留在常规工作流里的那个中心。[1][2]

旧模型名已经不再是两套独立的公开故事

更深的一层变化,落在命名与路由关系上。更新日志定价页都写明,deepseek-chat 现在对应 deepseek-v4-flash非思考模式deepseek-reasoner 对应它的*思考模式*。[2][3] 发布说明再把时间界线补齐:这两个旧名字会在 2026-07-24 之后退出使用。[1]

这是一种公开产品表面的收束。过去一个周期里,市场还可以把 DeepSeek 的 chat 线与 reasoner 线当作两种相对独立的公开身份来谈。到了 V4,这个差别已经被压缩。现在公开契约更接近这样一张图:下面是一条更小、更适合兼容迁移的 Flash 通道,上面是一条更大的 Pro 通道;旧名字只是过渡手柄。[2][3] 对开发者而言,这会降低迁移摩擦;对观察者而言,也会直接改写横向比较的意义。凡是仍把 deepseek-chatdeepseek-reasoner 当作稳定独立模型家族来画延迟、成本或 benchmark 图的材料,很快都会变成带日期限制的历史版本。

百万上下文这条声明有架构支撑,榜单结论却仍有边界

发布说明最有冲击力的句子,是 1M 上下文已经成为默认标准。[1] 技术报告的重要性,正在于它给出了一套机制解释。DeepSeek 说 V4 采用 Compressed Sparse Attention(CSA)Heavily Compressed Attention(HCA) 的混合注意力结构,并声称在 1M-token 场景下,V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.227%,KV cache 仅为 10%V4-Flash 进一步压到 10% FLOPs7% KV cache。[4] 正因为这一层写得足够具体,百万上下文才更像一条可落地的产品声明,而不只是把上限数字再往上抬一次。

但 benchmark 叙事仍需守住边界。DeepSeek 的发布说明强调,V4-Pro 已经进入开源领域顶级的 agentic coding 水平。[1] 技术报告对这一方向提供了支撑,同时也暴露了评测框架本身的条件。对于代码智能体任务,DeepSeek 使用的是内部开发的 harness,工具集只包含 bash 工具文件编辑工具,最多 500 步交互,上下文上限是 512K。[4] 报告还写到,在 Terminal-Bench 2.0 Verified subset 上,DeepSeek-V4-Pro 约为 72.0;而 Table 6 里 DeepSeek-V4-Pro-MaxSWE Verified 上给出的数字是 80.6。[4] 这些都属于很有分量的公开信号,但它们仍然是厂商自跑、依赖特定 harness 的结果。更审慎的结论因此应该保持在方向层面:DeepSeek 确实交出了一套新的智能体 benchmark 故事,但外部复跑依旧重要。

智能体集成文档已经把真正目标写得很清楚

最能说明这次发布在争取工作流迁移,而不只是争取榜单注意力的证据,落在工具文档里。DeepSeek 自己的 OpenClaw 集成页已经直接要求用户在配置默认模型时填写 deepseek-v4-prodeepseek-v4-flash。[5] 这件事之所以重要,原因正在于 OpenClaw 作为日常智能体表面运转,和一张 benchmark 表处在不同层面。当实际工具的官方接入文档立刻改写模型名时,公司真正想锁定的是未来兼容习惯会停在哪一层。

因此,DeepSeek V4 值得在 ai-china 里被单独记下的地方,已经越过“更大模型”与“更小模型”同日发布这一层。更关键的动作,是 DeepSeek 正在试图同时把三件事写成新的默认契约:百万上下文成为公共上限,Flash 成为兼容层,旧有 chat/reasoner 名称退成限时迁移别名。[1][2][3][5] 如果这场迁移在 2026 年 7 月 24 日之后真正站稳,DeepSeek 做成的就不只是一次能力升级,而是一次公共接口重写。

来源

  1. DeepSeek API Docs, "DeepSeek-V4 Preview Release" / "DeepSeek-V4 预览版:迈入百万上下文普惠时代"(2026 年 4 月 24 日;V4-Pro 与 V4-Flash 发布、1M 上下文默认化、旧模型名退场日期,以及对主流 Agent 工具的适配描述)。
  2. DeepSeek API Docs, "Models & Pricing"(V4-Flash 与 V4-Pro 的上下文长度、模式支持、旧模型名兼容映射、定价、cache-hit 调整,以及 2026 年 5 月 31 日前的 V4-Pro 临时折扣)。
  3. DeepSeek API Docs, "Change Log"(2026-04-24 条目;deepseek-v4-pro / deepseek-v4-flash 接入,以及 deepseek-chat / deepseek-reasoner 的退役路径)。
  4. DeepSeek-AI, DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence(技术报告;参数规模、CSA/HCA 架构、1M 上下文效率、benchmark 表格与 agent 评测设置)。
  5. DeepSeek API Docs, "Integrate with OpenClaw"(官方集成说明;要求用户把默认模型设为 deepseek-v4-prodeepseek-v4-flash)。
  6. Wikimedia Commons, "File:Hangzhou Skyline on West Lake.jpg"(本文题图所用杭州天际线实拍照片的来源页)。