中国 AI 差距现在要分项测量

这张来自 2025 世界人工智能大会展区的新华社实拍照片，适合放在这篇基准札记中，因为中国 AI 信号正在从模型分数移向真实部署：机器人、工业演示、公共展示与配套设施。[5]

截至 2026-06-06T07:02:56Z UTC，对关注中国 AI 的读者来说，斯坦福 HAI 的 2026 AI Index 最有价值的读法，是把它放到一种旧习惯旁边审视：把整个中美 AI 竞争压缩成一张模型排行榜。报告的头条已经足够戏剧化。它说，自 2025 年初以来，美国和中国模型数次交换领先位置；2025 年 2 月，DeepSeek-R1 曾短暂追平美国领先模型；到 2026 年 3 月，Anthropic 的顶尖模型只领先中国顶尖模型 2.7 percent。[1] 更锋利的基准教训在于，比较对象已经拆成多条线索。

中国在前沿模型性能上接近美国，在研究规模、总专利量和工业机器人安装量上较强，在开放模型扩散中有战略分量，在私人 AI 投资上较弱，同时仍受数据中心和芯片供应限制。[1][2][3] 这些信号无法合并为一个单一分数。开发者、投资者、政策制定者或企业买家，要看得更准确，就要追问正在测量什么，测量排除了什么，以及该指标记录的是能力、采用、供应链控制，还是制度后续执行。

图片说明：封面采用一张真实的新华社照片，画面中参观者在上海 2025 世界人工智能大会查看一套机器人质量检测系统。这个画面保留了物理触感。本文把抽象“AI 竞赛”图形放到一边，转向中国可测量的 AI 位置为何同时穿过模型分数、工业机器人、展会、部署目标、开源网络与应用入口。[5]

模型差距已经不能概括全部问题

AI Index 中被引用最多的中国要点，是模型性能差距实际上已经收拢。[1][2] 这一点重要，因为前沿模型比较过去给人一种方便的速记：某个国家或公司明显领先，其余参与者在追赶。经历多次领先权更替之后，一个 2.7 percent 的差距已经支撑不了这种懒散的层级叙述。[1] 它说明，市场顶端已经接近到产品环境与原始排名同样重要。

这仍然无法推出所有模型都可以互换。斯坦福的同一份摘要也说，美国仍然产出更多顶尖 AI 模型。[1] 它还指向一个“锯齿状前沿”：模型可以在某些科学、数学、编程和智能体基准上表现极强，同时在模拟时钟读取、较长规划、视频连贯性、金融分析和真实家庭机器人等任务上仍然笨拙失效。[1][2] 放在基准术语里，第一道界线已经出现：中美差距在前沿处很窄，但前沿接近不等于普遍可部署。

对中国专门分析而言，这一区分不可缺少。一个中国模型即便没有清晰优势，只要靠近公共基准榜首，也有战略重要性。它仍能压低价格，催生下游微调，迫使兼容工作推进，并为本土平台给出可信的基础模型。反过来，一个美国模型可以领先排行榜，却未能在某条中国部署线上占据主导；在那里，数据访问、平台分发、本地监管和模型托管成本比几个基准点更重要。

因此，有用的问题从“谁赢得了 AI？”转向“哪一项能力已经足够接近，使采用和成本开始决定下一步？”

产出指标显示中国很深，但技术栈各层存在错位

当报告离开模型排名，斯坦福给出的中国信号变得更宽。AI Index 说，中国在 publication volume、citation counts、total patent output 和 industrial robot installations 上领先；美国则在更多顶尖模型、更高影响力专利和私人投资上领先。[1][2] 这种组合并不顺滑，正因如此，它才有价值。

论文发表量与引用量指向研究密度。总专利产出指向组织化发明与申请能力，虽然专利数量无法等同于专利质量或商业防御力。工业机器人安装量指向一种制造环境，AI 与自动化可以被推入真实设备和流程控制。顶尖模型产出指向前沿实验室集中度。更高影响力专利指向另一种质量权重。私人投资指向资本市场与公司融资。这些指标描述的是彼此相关却不相同的系统。

陷阱在于，选择最符合既有论点的那个指标。强调中国优势的读法可以引用论文、引用量、专利和机器人。强调美国优势的读法可以引用顶尖模型、数据中心、更高影响力专利和私人投资。更好的读法是，两国都有不对称强项。中国的优势超出一个接近榜首的模型。更重要的是，接近前沿的模型正在庞大的研究、制造和政策系统内部出现，而这个系统希望把 AI 变成工业与社会基础设施。

这也是国务院“AI Plus”指导意见应当与 AI Index 并置阅读的原因，尽管前者是政策来源，后者是基准来源。指导意见说，中国希望到 2027 年在六大领域实现 AI 深度融合，新一代智能终端和 AI agents 的普及率超过 70 percent，到 2030 年超过 90 percent。[4] 这些目标能否全部实现，是另一个问题。作为测量背景，它们显示了北京试图让哪些对象进入统计：不只实验室能力，还包括终端普及、智能体采用、行业融合、治理使用、数据供给、算力容量、开源网络和人才。[4]

资本讲述的是另一条能力故事

AI Index 也让融资差距无法忽视。斯坦福报告显示，2025 年美国私人 AI 投资达到 $285.9 billion，超过中国 $12.4 billion 的 23 倍。[1][2] 这个数字不应被当作完整的资本地图，因为斯坦福自己也指出，在政府引导基金和国家导向资本发挥作用的地方，私人投资比较会低估中国 AI 总支出。[1][2] 即便如此，这一差距仍然大到足以改变人们对模型趋同的解读方式。

如果美国公司投入远多得多的私人资本，而中国顶尖模型仍保持接近，那么基准问题就会从“谁拥有最多资本？”转向“哪个系统能以更高效率把可用资本转成能力、分发和成本下降？”这个问题尚未定局。美国支出可以购买更深的算力护城河、更强的数据中心容量和更有韧性的前沿研究。中国的成本压力也可以持续推高小模型效率、开放权重复用、本地适配和激进 API 定价。两种结果可以同时成立。

这正是 AI Index 的数据中心注记值得重视的地方。报告说，美国拥有 5,427 个数据中心，是任何其他国家的 10 倍以上；领先 AI 芯片又高度依赖台湾的 TSMC 制造。[1] 这既是美国的基础设施优势，也是全球供应链集中风险。对中国而言，它为许多其他强项指标划出了约束：研究密度和开放模型扩散无法自动生成充足的前沿算力。

这里的分工很清楚。能力分数告诉我们，模型在测试条件下能做什么。资本和基础设施指标告诉我们，一个系统在真实需求下能以多高的重复性训练、服务、部署和改进这些模型。

开放模型把基准转成分发信号

USCC 的 “Two Loops” 论文给出第二条有用线索：中国的开放 AI 战略超出许可偏好，更像一个反馈系统，开放模型加速采用，采用带来迭代，成功迭代又强化工业采用。[3] 论文指出，政策支持、ModelScope 等平台、PaddlePaddle 和 MindSpore 等国内框架，以及 DeepSeek 之后对开放模型的推动，都位于中国建设开放技术基础设施的长期努力之中。[3]

这会改变基准解读。一个开放或开放权重模型即使分数略低，只要价格低、易于微调、能够本地托管，并被包装进企业实际能用的工具中，仍能产生超出分数本身的影响。一个分数更高的闭源模型仍可主导高端用户，但触达范围较小。对中国 AI 来说，最重要的指标因此可以是“足够可信且被广泛采用”，领先名次只是其中一层信号。

USCC 的测量提醒同样重要：一旦进入应用，采用情况很难按开放模型战略与闭源模型战略清楚区分。[3] 当一个模型被嵌入办公智能体、手机助手、代码工具、工业流程、客服系统或机器人控制管线，用户往往不知道也不关心底层是哪一个基础模型。应用入口遮住了模型来源。这使公共模型基准成为必要指标，但仍然残缺。

实际评估问题变成：一次中国模型发布是否创造了可测量的下游路径？观察对象应包括衍生模型、托管 API 使用、企业平台集成、开发者工具支持、本地硬件兼容性、采购引用和真实应用遥测。没有这些，基准胜利只是新闻；有了这些，它就开始变成基础设施。

接下来观察什么

下一份中国 AI 计分卡至少应拆出五条线。

第一，观察 frontier model proximity：不只看某个中国模型是否短暂领先公共排名，还要看多个中国实验室是否能在推理、编程、多模态、长上下文和智能体任务上持续保持在窄幅区间内。

第二，观察 deployment penetration：AI Plus 目标是否在终端、智能体、工业工具、教育系统、健康流程、公共服务和企业采购中显现，而不仅停留在政策语言里。[4]

第三，观察 open-model compounding：中国开放模型家族是否继续生成下游衍生版本、工具支持、海外采用，并对闭源提供商施加成本压力。[3]

第四，观察 infrastructure constraints：国产加速器、电力、数据中心、网络和服务软件，是否缩小模型可获得性与生产规模使用之间的差距。

第五，观察 measurement quality itself。AI Index 最强的地方，正在于它拒绝讲一个简单故事。它把模型性能放在投资、数据中心、专利、论文、机器人、采用、人才、环境成本和治理缺口旁边。[1][2] 这正是中国 AI 报道所需的纪律。竞争已经无法归约为一句“中国追上了”或“美国仍然领先”。它是一张由能力、资本、扩散、产业化和控制构成的矩阵。

本文的证伪条件也很直接：如果未来的 AI Index 显示，中国前沿模型实质性落后，而开放模型衍生版本、工业部署和 AI Plus 采用又未能转化为可测量使用量，那么今天的测量差距论题就会减弱。但如果模型排名继续保持接近，同时中国系统继续借开放发布、制造业采用、智能体普及和成本压力复合增长，那么 2026 年报告看起来就更像是计分板必须重建的那个时点，而不只是一年的意外。

cronfeed.work