截至 2026-05-20 UTC,中国 AI 在医疗领域最强的一层信号,已经不再停留于中国实验室与公司能够发布医疗大模型。更锋利的变化在于,医院、医疗 IT 厂商与监管方正在把这些模型转化为本地部署问题。问题正在从“哪个模型分数更高”移向“模型放在医院的哪个位置,由谁验证,能够触达哪段工作流,以及当建议抵达临床医生时责任怎样流动”。
DeepSeek-R1 让这一变化变得清晰,因为它进入医院试点时,更像一个可安装的开放模型,超出一个远程聊天产品。2025 年一项 medRxiv 调查描述了 261 家中国大陆医院在 2025-01-01 至 2025-03-08 之间报告本地部署 DeepSeek-R1 的情况。[1] Nature Medicine 后来把同一轮采用潮放进监管问题里讨论,并展示了北京一家医院真实世界的 DeepSeek 门诊科室架构。[2] 这里真正重要的线索在于:一旦模型靠近门诊分诊、病历、诊断支持、随访或医院信息系统,模型本体就不再等于完整产品。部署外壳本身成为产品。
图片说明:题图采用 Wikimedia Commons 上北京协和医院西单院区的真实照片。它避开了生成式医疗概念图和仪表盘示意图。本文讨论的是机构与临床部署表面,因此真实医院照片才是合适的视觉语域。[7]
医院系统正在成为模型边界
复星健康 2025 年 2 月的落地案例说明了医院部署为何不同于普通企业 AI 采用。复星称,其云 HIS 于 2025-02-12 集成 DeepSeek R1 671B,在四家粤港澳大湾区医院上线 AI 助手,并把系统直接接入病历分析与面向医生的诊断建议。[3] 它的位置已经进入医院信息系统内部,距离站在医院旁边的消费者助手很远。
这些运营层面的说法也很值得看。复星披露,首 token 延迟低于 0.8 秒,并发用户从 20 提升至 200,覆盖医院超过 80% 的科室,相关 AI 随访工作完成超过 30,000 通外呼,触达超过 20,000 名患者。[3] 这些数字来自厂商,需要按厂商口径审慎阅读,但它们指向真正的评估表面:医生工位上的延迟、科室覆盖、医院负载下的并发能力,以及 AI 输出能否接入随访运营。
这与基准测试营销属于不同轨道。医院不会在抽象层面采用“推理”。医院采用的是一组本地算力、数据访问、HIS 权限、提示词模板、检索、日志、临床医生复核与升级边界。一个在网页演示中令人印象深刻的模型,若在门诊流转中返回不够快,无法尊重本地病历结构,无法区分建议与医嘱,或者无法留下医院风险管理部门可审阅的审计轨迹,依然会在落地时失败。
专科模型正在收窄用例
PUMCH-GENESIS 指向与通用部署相反的方向:疾病领域更窄,机构根基更深。中国科学院在 2025 年 2 月将其描述为中国首个专门用于罕见病诊断的 AI 大语言模型,由北京协和医院与中国科学院自动化研究所共同研发。[4] 当时披露的近期用途落在初步诊断咨询、预约挂号,并计划接入北京协和医院线上罕见病多学科门诊,最终延伸至国家罕见病协作网络;公开聊天机器人替代医生距离这一路径的重心很远。[4]
这件事重要,是因为罕见病会暴露广而浅的医疗助手的弱点。这里的难题包括病例数据碎片化、训练样本稀缺、确诊延迟、遗传证据以及专科转诊。中国科学院称,该模型针对中国人群特征定制,并围绕最少初始数据与临床专长搭建。[4] 由此展开,价值主张从“一个模型回答所有医学问题”转向“一家机构把自身罕见病知识、患者路径与协作网络转化为更窄的决策支持表面”。
这个区别对追踪 AI-China 很重要。医疗大模型市场会沿着横向医院助手、专科疾病模型与行政代理分化。DeepSeek 式本地部署有吸引力,因为医院可以把开放模型调入自身系统。PUMCH-GENESIS 有吸引力,则因为临床领域本身稀缺且高度依附机构。两者对应的是不同护城河。
验证正在成为基础设施
上海 2025 年 1 月成立的医疗大模型测试中心,把第三条信号直接摆出来:缺少验证层,模型发布本身还不够。上海在 2025-01-03 成立其称为中国首个医疗大模型应用测试验证中心的机构,由上海人工智能实验室牵头,首批 12 家头部医疗卫生机构作为验证单位。[5] 该中心的工作范围包括资质验证、模型审查、安全评估、医疗场景评价、产品伦理审查与应用追踪。[5]
这份清单构成了医疗 AI 部署的安静架构。它把模型视为生命周期中的一个组件:部署前、特定场景测试中,以及应用追踪开始之后。中心列出的目标领域包括疾病预测、诊断辅助、个性化治疗、药物研发、公共卫生服务、医学教育与服务管理。[5] 这些任务不能互相替代。每一种任务都有不同的错误容忍度、数据权利结构与人在回路中的预期。
现实含义在于,中国医疗 AI 的治理不只会通过模型提供商许可或医院采购来完成。它会越来越多地通过城市级或行业级验证机构展开,由这些机构判断模型是否已经适合某个场景。这会有利于能够记录数据集、提示词、失败模式、更新节奏与部署后监测的厂商,也会压低只能展示排行榜分数与精致演示的厂商空间。
政策正在扩大部署要求
部署压力来自厂商,也来自政策侧。2025 年 11 月,中国国家卫生健康委员会等五部门提出扩大人工智能在卫生健康行业的应用,并设定 2030 年目标:基层医疗卫生机构,包括社区和村卫生室,智能诊疗辅助能力基本普及。[6] 同一政策方向还提出,二级以上医院应广泛应用医学影像诊断辅助、临床决策支持等人工智能技术。[6]
这形成了双向推动。一边,医院与厂商正在把模型接入 HIS、门诊支持、罕见病转诊与随访。另一边,国家政策正在告诉卫生系统,AI 将成为基础服务交付的一部分。由此出现的瓶颈不在模型供给,而在运营治理。
风险最高的版本很容易想象:医院快速部署能力强的开放模型,科室发现有用的捷径,临床人员开始信任模型输出,而建议、草稿与决策之间的线条没有被清楚划定。更好的版本更难,却更耐久:模型放在经过验证的工作流背后,临床医生继续对决策负责,日志能够被审查,专科任务足够收窄,性能也能在真实临床路径中被测量。
接下来观察什么
第一项观察,是 DeepSeek 式本地部署会成为常规医院 IT 形态,还是继续集中在资源更充足的机构。如果较小医院与县域系统在缺少同等验证支持的情况下采用开放医疗助手,监管负担会从模型公司转向地方卫生管理者。
第二项观察,是专科转诊。PUMCH-GENESIS 提示,罕见病模型与机构网络、多学科门诊绑定时,效果会好于作为通用医疗聊天产品发布。如果更多头部医院建设疾病专用助手,中国医疗大模型市场会从一场全国通用模型竞赛,转向一张临床卓越中心地图。
第三项观察,是评估采购。上海测试中心显示,医院部署前会越来越多地要求场景验证、伦理审查、安全评估与追踪。[5] 如果这些检查成为采购默认项,胜出者将是能够证明工作流可靠性的团队,区别于只能发布更大模型的团队。
收窄来看,结论是:中国医院 AI 竞赛正在变成部署治理竞赛。模型仍然重要,但决定性表面已经更靠近临床现场:本地 HIS 集成、经过验证的场景、专科路径、延迟、日志,以及围绕每一次建议设置的人类边界。
来源
- Tianyi Shen 等,《Large-scale Local Deployment of DeepSeek-R1 in Pilot Hospitals in China: A Nationwide Cross-sectional Survey》,medRxiv 预印本(2025;调查2025年1月至3月中国医院报告的本地部署情况)。
- Tianyi Shen 等,《Rapid deployment of large language model DeepSeek in Chinese hospitals demands a regulatory response》,Nature Medicine 31(2025),DOI 页面与文章元数据。
- 复星,《Fosun Health Cloud HIS Launches DeepSeek AI Assistant, Ushering in a New Era of Medical Services》(2025;DeepSeek R1 671B 集成、延迟、并发、科室采用率与随访数字)。
- 中国科学院,《China Launches Its First AI Model for Rare Disease Diagnosis》(2025;PUMCH-GENESIS 的研发、试用与罕见病协作网络计划)。
- 上海市人民政府,《China sets up first medical large model application testing center in Shanghai》(2025;验证单位、安全评估、伦理审查与应用追踪范围)。
- 中华人民共和国国务院,《Chinese authorities call for broader AI application in health sector》(2025;基层医疗、临床决策支持、影像支持、分诊和随访的2030年目标)。
- Wikimedia Commons,《File:Peking Union Medical College Hospital, Xidan (20211202163223).jpg》(本文题图所用真实医院照片的来源页面)。