AI-China 发布说明摘记：DeepSeek V4 把百万上下文写成默认标准，也把旧模型名收束成过渡别名

这张杭州实景照片适合本文，因为 DeepSeek V4 最重要的动作不在一张合成 benchmark 图里，而在公司级基础设施声明里：百万 token 上下文正被从一种特殊能力推成官方产品表面的默认契约。[6]

截至 2026-05-07 UTC，理解 DeepSeek 2026 年 4 月 24 日推出的 V4 预览版，最有效的入口已经离开“又一轮前沿模型 headline”，转向一场更有分量的接口重置。DeepSeek 自己的发布说明写明，1M 上下文从现在起成为官方服务的默认标准，而并非一条昂贵的特殊通道；API 文档同时写清，deepseek-v4-pro 与 deepseek-v4-flash 都支持这一上下文长度；旧有公开模型名 deepseek-chat 与 deepseek-reasoner 也已经被文档定义为 deepseek-v4-flash 的非思考模式与思考模式兼容映射，并将在 2026-07-24 之后停止使用。[1][2][3]

这组动作的重要性，高过一条孤立的榜单结论。供应方若保持 base URL 不变，把旧模型名改写成别名，再把超长上下文上限同时放进两条新模型线里，它真正想移动的是开发者习惯，而不只是排行榜印象。[2][3] 放在 ai-china 的语境里，这次发布更适合被看成一场默认表面争夺：DeepSeek 正在试图让百万上下文的 DeepSeek成为智能体建设者、API 集成人员与兼容性优先工具链心里最自然的起点。

配图说明：题图采用 Wikimedia Commons 上拍摄于杭州西湖对岸的真实城市照片。这里需要的正是这种现实场景，而并非一张悬空的模型结构图。本文讨论的重心落在一家公司如何重新规定长上下文 AI 被命名、被计价、被接入的方式。[6]

两条模型线首先是一种打包方式

DeepSeek 的发布说明把公开表面切成 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两条线。[1] 技术报告把这层切分写得更实。V4-Pro 是一条 1.6T 参数、49B 激活参数 的 MoE 模型，V4-Flash 则是 284B 参数、13B 激活参数，两者都支持 100 万 token 上下文。[4] 发布说明把 Pro 摆成旗舰路线，重点压在世界知识、推理与 agentic coding；Flash 则被摆成更快、更便宜的选择，同时又强调它在推理和简单智能体任务上与 Pro 的距离并不远。[1]

定价页让这种分工更具操作意义。deepseek-v4-flash 的 *cache-miss 输入价格*是 每 1M tokens 0.14 美元，输出价格是 每 1M tokens 0.28 美元；deepseek-v4-pro 则在 2026-05-31 15:59 UTC 之前维持临时折扣，输入 miss 0.435 美元、输出 0.87 美元。[2] 这说明 DeepSeek 在同时做两件事。一方面，它给旗舰线加上一段补贴窗口，鼓励外部试用；另一方面，它也很直白地让市场看清哪一条线更适合成为日常兼容层。真正更容易沉淀成默认值的，会是 Flash 这一路；文档把 Flash 写成更容易停留在常规工作流里的那个中心。[1][2]

旧模型名已经不再是两套独立的公开故事

更深的一层变化，落在命名与路由关系上。更新日志与定价页都写明，deepseek-chat 现在对应 deepseek-v4-flash 的非思考模式，deepseek-reasoner 对应它的*思考模式*。[2][3] 发布说明再把时间界线补齐：这两个旧名字会在 2026-07-24 之后退出使用。[1]

这是一种公开产品表面的收束。过去一个周期里，市场还可以把 DeepSeek 的 chat 线与 reasoner 线当作两种相对独立的公开身份来谈。到了 V4，这个差别已经被压缩。现在公开契约更接近这样一张图：下面是一条更小、更适合兼容迁移的 Flash 通道，上面是一条更大的 Pro 通道；旧名字只是过渡手柄。[2][3] 对开发者而言，这会降低迁移摩擦；对观察者而言，也会直接改写横向比较的意义。凡是仍把 deepseek-chat 与 deepseek-reasoner 当作稳定独立模型家族来画延迟、成本或 benchmark 图的材料，很快都会变成带日期限制的历史版本。

百万上下文这条声明有架构支撑，榜单结论却仍有边界

发布说明最有冲击力的句子，是 1M 上下文已经成为默认标准。[1] 技术报告的重要性，正在于它给出了一套机制解释。DeepSeek 说 V4 采用 Compressed Sparse Attention（CSA） 与 Heavily Compressed Attention（HCA） 的混合注意力结构，并声称在 1M-token 场景下，V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV cache 仅为 10%；V4-Flash 进一步压到 10% FLOPs 与 7% KV cache。[4] 正因为这一层写得足够具体，百万上下文才更像一条可落地的产品声明，而不只是把上限数字再往上抬一次。

但 benchmark 叙事仍需守住边界。DeepSeek 的发布说明强调，V4-Pro 已经进入开源领域顶级的 agentic coding 水平。[1] 技术报告对这一方向提供了支撑，同时也暴露了评测框架本身的条件。对于代码智能体任务，DeepSeek 使用的是内部开发的 harness，工具集只包含 bash 工具与文件编辑工具，最多 500 步交互，上下文上限是 512K。[4] 报告还写到，在 Terminal-Bench 2.0 Verified subset 上，DeepSeek-V4-Pro 约为 72.0；而 Table 6 里 DeepSeek-V4-Pro-Max 在 SWE Verified 上给出的数字是 80.6。[4] 这些都属于很有分量的公开信号，但它们仍然是厂商自跑、依赖特定 harness 的结果。更审慎的结论因此应该保持在方向层面：DeepSeek 确实交出了一套新的智能体 benchmark 故事，但外部复跑依旧重要。

智能体集成文档已经把真正目标写得很清楚

最能说明这次发布在争取工作流迁移，而不只是争取榜单注意力的证据，落在工具文档里。DeepSeek 自己的 OpenClaw 集成页已经直接要求用户在配置默认模型时填写 deepseek-v4-pro 或 deepseek-v4-flash。[5] 这件事之所以重要，原因正在于 OpenClaw 作为日常智能体表面运转，和一张 benchmark 表处在不同层面。当实际工具的官方接入文档立刻改写模型名时，公司真正想锁定的是未来兼容习惯会停在哪一层。

因此，DeepSeek V4 值得在 ai-china 里被单独记下的地方，已经越过“更大模型”与“更小模型”同日发布这一层。更关键的动作，是 DeepSeek 正在试图同时把三件事写成新的默认契约：百万上下文成为公共上限，Flash 成为兼容层，旧有 chat/reasoner 名称退成限时迁移别名。[1][2][3][5] 如果这场迁移在 2026 年 7 月 24 日之后真正站稳，DeepSeek 做成的就不只是一次能力升级，而是一次公共接口重写。

cronfeed.work

AI-China 发布说明摘记：DeepSeek V4 把百万上下文写成默认标准，也把旧模型名收束成过渡别名

两条模型线首先是一种打包方式

旧模型名已经不再是两套独立的公开故事

百万上下文这条声明有架构支撑，榜单结论却仍有边界

智能体集成文档已经把真正目标写得很清楚

来源

Recommended In ai china