截至 2026-06-12T09:30:51Z UTCOpenSPG 在 AI-China 语境里更有价值的信号,并非蚂蚁集团又发布了一个开源基础设施仓库。真正值得关注的是,蚂蚁把一个许多企业 RAG 系统仍处理得过于粗放的问题,写成了 schema 优先的回答:怎样让语言模型检索事实、关系、业务规则和源文本,同时避免把一切都压进向量最近邻文本块里。[1][2][3]

这一点重要,是因为中国 AI 堆栈的下一层,光鲜程度低于模型发布页。银行、保险机构、医院、商户平台或政务服务门户一旦要求助手回答领域问题,原始检索通常承载不了完整任务。系统要知道两个地区服务名称可以指向同一项流程,一个医学术语归属于更宽的概念,一个数字会触发一条规则,最终答案还应回指源文本,避免脱离依据自由铺写。OpenSPG 及其 KAG 层把这项工作作为基础设施呈现出来。[1][2][3]

从倒影池对面拍摄的杭州阿里巴巴集团总部。
这是一张 2012 年上传至 Wikimedia Commons 的阿里巴巴集团杭州总部实拍照片。本文将其作为蚂蚁集团知识基础设施文章的地理与平台语境使用,图片并非 AI 合成。[6]

聊天机器人下方的堆栈层

OpenSPG 自称是蚂蚁集团与 OpenKG 共同开发的知识图谱引擎,基于 SPG,即 Semantic-enhanced Programmable Graph 框架。[1] 这里重要的表述,单独看并非“知识图谱”四个字。如今大量 GraphRAG 项目都在使用图语言,同时仍在搭建一种由抽取片段组成的松散图。OpenSPG 更强的主张在于,领域图既要保留带标签属性图的工程简洁性,也要具备足够形式化的语义,让机器避免把表层相似误认为业务含义。[1][4]

由此看,项目更接近一个供应链组件,已经超出演示样例。它的公开材料强调语义建模、从结构化与非结构化数据中进行知识构造、逻辑规则、推理、算法服务,以及可插拔的图后端或机器学习后端。[1] 放在堆栈层面,OpenSPG 试图占据杂乱企业数据与面向 LLM 的应用之间的位置:前端是 schema,中段是构造与对齐,答案路径上是检索与推理。

OpenSPG 组织页也展示出同一项工作正在扩展成一个小型生态:OpenSPG 本身、KAG、KAG-Thinker、OneKE,以及配套的 Web 和应用仓库。[4] 这个背景对于 AI-China 尤为重要,因为 OpenSPG 不是纯粹的学术产物。它连接着蚂蚁在金融与服务场景中长期表达业务知识的需求,同时以可复用开放基础设施的形式对外呈现,而不是停留在某个封闭产品功能内部。[1][4][5]

KAG 是 RAG 的边界

配套的 KAG 仓库把 LLM 连接讲得更直接。KAG 被描述为一个基于 OpenSPG 与大语言模型、面向垂直领域知识库的逻辑形式引导推理与检索框架。[2] 它对普通 RAG 的批评相当明确:向量相似度会漏掉关系逻辑,带有噪声的 OpenIE 式 GraphRAG 又会引入歧义。KAG 给出的方案,是把知识与文本块相互索引、schema 约束下的构造、概念语义对齐,以及逻辑形式引导的混合推理组合起来。[2]

这种设计改变了“检索”的含义。在简单 RAG 流水线中,模型请求相关文本,收到相邻文本块,再尝试组合答案。在 KAG 中,系统可以把实体、事件、关系、源文本块和规则表达为相互连接的对象。求解器可以混合文本检索、图检索、逻辑推理,以及数值或集合操作。LLM 仍然重要,但结构不再只存在于模型内部。[2][3]

2024 年的 KAG 论文为这一论证划出了证据边界。论文列出五个核心部分:对 LLM 友好的知识表示、知识图谱与原始文本块之间的相互索引、逻辑形式引导的混合推理引擎、基于语义推理的对齐,以及面向 KAG 流水线的模型能力增强。[3] 论文还报告了相对当时 RAG 基线的多跳问答提升,并描述了蚂蚁集团在电子政务和电子健康问答中的部署。[3]

这些应用说明尤其有信息量。在电子政务案例中,论文描述了约 11,000 份政务服务文档、语义文本块、行政区域、服务流程、所需材料、服务地点、目标受众,以及服务事项之间的同义或上位关系。[3] 在电子健康案例中,论文描述了超过 1.8 million 个实体、超过 400,000 个术语集合、超过 5 million 条关系,以及超过 700 条用于指标计算的规则。[3] 这些具体数字应按论文报告的项目规模阅读,而不是通用基准。不过,它们展示了 OpenSPG 所面向的企业问题类型:术语多、规则多、源文档多,并且当答案只是看起来合理时,代价很高。

为什么这是 AI-China 的供应链故事

中国模型市场已经足够拥挤,另一个开放权重模型自动成为最重要信号的阶段已经过去。现实瓶颈越来越集中在周边堆栈:服务部署、评测、agent 执行、文档解析、隐私、数据治理和领域记忆。OpenSPG 贴合这一变化,因为它让蚂蚁能够把知识基础设施作为开放组件暴露出来,而不是把全部领域智能隐藏在支付宝或内部平台中。[1][2][5]

对中国厂商而言,这一层还有战略意义。OpenSPG 没有绑定到某一个前沿模型 API。它的价值位于表示与推理层:领域 schema、图构造、对齐和求解器工作流。这使它能够与本地模型家族、企业私有化部署,以及答案路径需要接受检查的受监管领域互补。医院助手、金融服务机器人或公共服务门户,不能只说某个相关文本块在语义上离问题很近。它需要展示这个术语为什么映射到那个概念,这条规则为什么触发,以及答案来自哪里。[2][3]

边界同样重要。OpenSPG 没有让知识图谱构造变成零成本工作。团队仍要设计领域 schema、规范化实体、解决冲突、搭建评测集,并决定哪些规则具有权威性。KAG 也没有抹去模型质量的需求;LLM 仍要理解问题、生成有用计划,并在总结时避免发明缺乏依据的说法。这里更窄也更持久的意义在于:OpenSPG 给团队提供了一个位置,把领域逻辑从提示词里移到受治理的知识层中。[1][2][3]

这就是它真正的 AI-China 信号。蚂蚁通过 inclusionAI 或面向消费者的助手参与模型竞争,同时也在发布企业底座的一部分:图计算、开源基础设施和知识推理。这些组件能够降低 LLM 系统对提示词运气的依赖。若中国 AI 的下一阶段关乎把模型转化为可靠服务,OpenSPG 就是值得持续观察的安静堆栈组件之一。

来源

  1. OpenSPG, OpenSPG/openspg GitHub repository(项目描述、蚂蚁集团/OpenKG 来源、SPG 背景、核心能力、发布状态和 Apache-2.0 许可)。
  2. OpenSPG, openspg/kag GitHub repository(KAG 描述、逻辑形式引导的推理与检索、相互索引、schema 约束构造和语义对齐)。
  3. Lei Liang et al., "KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation," arXiv:2409.13731, September 2024(框架、报告的基准提升、蚂蚁电子政务与电子健康应用细节,以及局限)。
  4. OpenSPG GitHub organization page(仓库生态,包括 OpenSPG、KAG、KAG-Thinker、OneKE 及相关应用/站点仓库)。
  5. Ant Group Open Source, projects page(蚂蚁集团开源计划与技术栈语境)。
  6. Wikimedia Commons, "File:Alibaba group Headquarters.jpg" by Thomas LOMBARD / Thecraft(2012 年实拍文章配图的来源页面)。