上海AI实验室的科学模型叙事已经超出规模本身

这张2014年拍摄的上海徐汇滨江真实照片适合这篇档案文章，因为故事带有机构和地方属性：上海AI实验室公开把自身工作锚定在城市级研究生态中，而不只是在抽象的基准测试表格里展开。[6]

截至 2026-05-20 UTC，理解上海AI实验室科学模型工作的有效方式，已经超出“中国有了一个万亿参数模型”这一单条标题。这个标题本身成立：Intern-S1-Pro 被介绍为一个 1T 参数 MoE 科学多模态模型，拥有 512 个专家，每次推理调用只激活 8 个专家，也就是 22B 参数。[2][3] 但在 AI-China 观察中，更锋利的信号出现在这一规模主张的周围和之后。上海AI实验室正在尝试把 AI for science 呈现为一套运行栈：大型专科-通用模型、更小且面向效率的后续模型、开放模型产物、部署路径、评测工具、文档解析，以及研究工作流演示。

这一点重要，因为中国AI竞争常被放在消费级聊天应用、云端价格下调或通用基准竞赛中描述。上海AI实验室走的是另一条路径。它最强的公开记录，把模型能力放在化学、材料、生命科学、地球科学、物理信号、科学图表、长跨度异构时间序列，以及 agent 式研究工作流周围。[1][2][3][4] 这一路径不等于取代通用助手。它提出的是另一种主张：科学工作需要一组模型家族，配备不同的传感输入、训练数据、评测体系和失败边界。

图片语境：封面使用的是 Wikimedia Commons 上一张上海徐汇滨江真实照片。它避开了模型截图和合成概念图。这个选择有意为之：本文是一份关于机构研究栈的档案，主角扎根于上海AI生态，公共实验室、开源基础设施和城市级科学政策都构成了产品故事的一部分。[6]

Intern-S1-Pro 证明了规模命题

2月发布时，上海AI实验室把自己的命题说得格外清楚。实验室将 Intern-S1-Pro 描述为一个围绕 SAGE 构建的科学多模态模型；SAGE 是一种“specializable generalist”架构，目标是在通用能力与科学专门化之间形成结合。[3] 发布材料提出了两项架构动作：用于周期性和物理信号表示的 Fourier Position Embedding，以及用于稳定高效 1T 参数 MoE 训练的路由机制。[3]

公开 GitHub README 以工程速记的方式给出了同一主张。Intern-S1-Pro 被呈现为一个万亿级 MoE 多模态科学推理模型，拥有 1T total parameters、512 experts，并且每个 token 激活 22B activated parameters；README 还强调了领先的科学推理、强通用多模态表现、STE routing、grouped routing、FoPE，以及覆盖 10^0 到 10^6 点范围的升级版时间序列建模能力。[2]

这个组合很重要。在常规前沿模型叙事里，规模常被包装为一种普遍答案。放在这里，规模被系到更窄的问题上：科学数据远超文本。它包括分子结构、蛋白质、图表、实验室图像、遥感图像，以及物理或生物时间序列。如果模型无法以足够原生的方式读取这些形式，它就会变成围绕科学说话的冗长助手，很难进入科学工作内部。

arXiv 记录进一步说明，这里提出的是研究系统层面的主张，而不只是产品页面。Intern-S1-Pro 论文首次提交于 2026-03-26，并在 2026-04-02 更新，归入 machine learning、computation and language、computer vision 等类别。[4] 这种学科跨度本身就是论点的一部分：上海AI实验室希望这项工作在语言、视觉、科学推理和模型系统边界上接受判断，而不只是作为另一个聊天模型被比较。

Intern-S2-Preview 把问题从更大转向可用

当前更值得关注的信号是 Intern-S2-Preview。它的模型卡将其描述为一个高效的 35B 科学多模态基础模型，探索的是 task scaling，路径超出单纯依赖参数和数据规模扩展。[1] 模型卡称，它把专业科学任务扩展为一条从预训练到强化学习的全链路训练流程，并且只使用 35B 参数，就在多个核心专业科学任务上达到可比 Intern-S1-Pro 的表现。[1]

这是一次战略转向。S1-Pro 说的是：一个巨大的开放科学模型可以存在。S2-Preview 追问的是：其中有多少能力可以被做得更小、更易部署，并且更贴合任务形态？

模型卡中的细节显示，这已经超出单纯尺寸压缩。S2-Preview 强调数百个专业科学任务、小分子结构的空间建模、实值预测模块、更强的科学 agent 能力、MTP，以及用于提升推理效率的 chain-of-thought 压缩。[1] 它还列出通过 LMDeploy、vLLM 和 SGLang 的实际服务路径。[1] 这些细节重要，因为 AI for science 部署不能按选美比赛来处理。实验室、高校团队或工业研发组织必须判断模型能否被服务化、检查、复现、路由和评测，同时避免每一次实验都滑向基础设施工程。

我从 [1] 和 [2] 得出的推断是，上海AI实验室现在展示的是两级阶梯。最上一级 S1-Pro 证明，科学多模态模型可以被推到万亿级 MoE 形态。下一层 S2-Preview 则测试，任务扩展和效率工作能否把同一研究方向转成更接近运行状态的东西。

工具链是这份档案的一部分

当模型与工具放在一起阅读时，这份档案会变得更清晰。S1-Pro 发布材料称，上海AI实验室已经开源一套覆盖数据处理、预训练、微调、部署、评测和应用的全链路大模型研发与应用系统。它点名 XTuner、LMDeploy、OpenCompass、MinerU 和 MindSearch 作为核心工具。[3]

这个列表很容易被匆匆略过，但它处在实验室定位的中心。在科学AI里，没有工作流支撑的模型很脆弱。论文以 PDF 形式抵达。实验数据以表格、图像、光谱、序列或传感器流形式抵达。基准需要能够复现。领域主张需要同通用推理主张分开。部署需要适配可获得的算力。单个模型端点不足以解决这些问题。

OpenCompass 尤其有揭示性，因为它把评测纳入公共基础设施叙事。其 GitHub README 将它描述为一个 LLM 评测平台，用于在复杂的模型评测版图中导航，并提供公开站点、排名、文档和代码仓库入口。[5] 它的重要性不在于 OpenCompass 自动平息所有基准争论，而在于上海AI实验室的生态正在尝试同时拥有测量层和模型层。

对 AI-China 跟踪而言，这比又一条孤立的排行榜名次更有信号强度。如果一家实验室控制或深度参与模型产物、服务配方、评测工具和文档处理基础设施，它的工作就更容易穿过高校、开源社区和企业研发团队。护城河不只在权重里，也在围绕权重形成的路径里。

主张最强的地方，以及仍然受限的地方

上海AI实验室公开案例中最强的部分是连贯性。S1-Pro、S2-Preview、Intern-S1、OpenCompass、LMDeploy、MinerU 和相关工具都指向同一个命题：科学AI需要多模态理解、领域数据、面向任务的训练、可复现评测和实际服务能力。[1][2][3][5] 这种连贯性让实验室比那些每隔几周推出互不相关模型演示的公司更容易被读懂。

边界同样重要。第一方模型卡和发布材料仍然是第一方主张。S2-Preview 关于多个专业科学任务上可比 S1-Pro 表现的承诺，需要经过工作负载层面的复现，买方才能把它视为部署事实。[1] S1-Pro 的 1T/22B MoE 结构令人瞩目，但模型规模单独不足以保证化学规划、生物解释或科学 agent 循环中的可靠性；在这些场景里，一个错误答案会消耗真实实验室时间。[2][4]

第二个边界是领域迁移。一个在科学基准上表现良好的模型，仍会在本地实验室格式、专有测量惯例、罕见仪器、混乱 PDF 或缺失元数据面前失效。这正是外围工具链重要的原因，同时也意味着工具链必须和模型一起接受评估。文档解析、评测框架和推理引擎都进入可靠性边界，属于核心组成部分。

第三个边界是治理。公共实验室的开源策略能够建立信任并推动采用，但科学AI部署往往涉及敏感的未发表数据、知识产权、临床或工业约束，以及可复现性义务。开放栈降低进入成本；数据控制和审计轨迹仍然需要被纳入部署设计。

接下来观察什么

观察 S2-Preview 是否会超出模型卡。更有用的信号包括：可复现的科学 agent 基准、来自上海AI实验室之外的部署报告，以及更小科学模型在真实研发工作流中胜过更大通用模型的案例，而且这些案例不依赖沉重的定制提示。[1][5]

服务层也值得观察。如果 LMDeploy、vLLM 和 SGLang 路径保持到研究团队足以运行的程度，S2-Preview 的 35B 框架就更有意义。如果部署仍然要求特殊硬件假设或脆弱的定制代码，效率叙事就会变弱。[1][2]

最后，观察 OpenCompass 和相关评测资产是否会把科学推理拆成更清晰的赛道：分子结构、蛋白质序列、图表和图像解读、长时间序列、科学文献问答，以及交互式 agent 工作流。[3][5] 这些赛道拆得越清楚，用户就越不会把一个高综合分数误认为广泛科学可靠性。

收窄后的结论是：上海AI实验室的 AI for science 故事，已经不只是拥有一个很大的模型。它关乎一家中国公共实验室能否把科学多模态建模转化为一套可重复的栈：大到足以测试前沿科学推理，小到足以部署，同时开放到足以让其他研究者检查路径。

cronfeed.work