OpenSPG 把 GraphRAG 变成 schema 契约

截至 2026-06-12T09:30:51Z UTC，OpenSPG 在 AI-China 语境里更有价值的信号，并非蚂蚁集团又发布了一个开源基础设施仓库。真正值得关注的是，蚂蚁把一个许多企业 RAG 系统仍处理得过于粗放的问题，写成了 schema 优先的回答：怎样让语言模型检索事实、关系、业务规则和源文本，同时避免把一切都压进向量最近邻文本块里。[1][2][3]

这一点重要，是因为中国 AI 堆栈的下一层，光鲜程度低于模型发布页。银行、保险机构、医院、商户平台或政务服务门户一旦要求助手回答领域问题，原始检索通常承载不了完整任务。系统要知道两个地区服务名称可以指向同一项流程，一个医学术语归属于更宽的概念，一个数字会触发一条规则，最终答案还应回指源文本，避免脱离依据自由铺写。OpenSPG 及其 KAG 层把这项工作作为基础设施呈现出来。[1][2][3]

从倒影池对面拍摄的杭州阿里巴巴集团总部。 — 这是一张 2012 年上传至 Wikimedia Commons 的阿里巴巴集团杭州总部实拍照片。本文将其作为蚂蚁集团知识基础设施文章的地理与平台语境使用，图片并非 AI 合成。[6]

聊天机器人下方的堆栈层

OpenSPG 自称是蚂蚁集团与 OpenKG 共同开发的知识图谱引擎，基于 SPG，即 Semantic-enhanced Programmable Graph 框架。[1] 这里重要的表述，单独看并非“知识图谱”四个字。如今大量 GraphRAG 项目都在使用图语言，同时仍在搭建一种由抽取片段组成的松散图。OpenSPG 更强的主张在于，领域图既要保留带标签属性图的工程简洁性，也要具备足够形式化的语义，让机器避免把表层相似误认为业务含义。[1][4]

由此看，项目更接近一个供应链组件，已经超出演示样例。它的公开材料强调语义建模、从结构化与非结构化数据中进行知识构造、逻辑规则、推理、算法服务，以及可插拔的图后端或机器学习后端。[1] 放在堆栈层面，OpenSPG 试图占据杂乱企业数据与面向 LLM 的应用之间的位置：前端是 schema，中段是构造与对齐，答案路径上是检索与推理。

OpenSPG 组织页也展示出同一项工作正在扩展成一个小型生态：OpenSPG 本身、KAG、KAG-Thinker、OneKE，以及配套的 Web 和应用仓库。[4] 这个背景对于 AI-China 尤为重要，因为 OpenSPG 不是纯粹的学术产物。它连接着蚂蚁在金融与服务场景中长期表达业务知识的需求，同时以可复用开放基础设施的形式对外呈现，而不是停留在某个封闭产品功能内部。[1][4][5]

KAG 是 RAG 的边界

配套的 KAG 仓库把 LLM 连接讲得更直接。KAG 被描述为一个基于 OpenSPG 与大语言模型、面向垂直领域知识库的逻辑形式引导推理与检索框架。[2] 它对普通 RAG 的批评相当明确：向量相似度会漏掉关系逻辑，带有噪声的 OpenIE 式 GraphRAG 又会引入歧义。KAG 给出的方案，是把知识与文本块相互索引、schema 约束下的构造、概念语义对齐，以及逻辑形式引导的混合推理组合起来。[2]

这种设计改变了“检索”的含义。在简单 RAG 流水线中，模型请求相关文本，收到相邻文本块，再尝试组合答案。在 KAG 中，系统可以把实体、事件、关系、源文本块和规则表达为相互连接的对象。求解器可以混合文本检索、图检索、逻辑推理，以及数值或集合操作。LLM 仍然重要，但结构不再只存在于模型内部。[2][3]

2024 年的 KAG 论文为这一论证划出了证据边界。论文列出五个核心部分：对 LLM 友好的知识表示、知识图谱与原始文本块之间的相互索引、逻辑形式引导的混合推理引擎、基于语义推理的对齐，以及面向 KAG 流水线的模型能力增强。[3] 论文还报告了相对当时 RAG 基线的多跳问答提升，并描述了蚂蚁集团在电子政务和电子健康问答中的部署。[3]

这些应用说明尤其有信息量。在电子政务案例中，论文描述了约 11,000 份政务服务文档、语义文本块、行政区域、服务流程、所需材料、服务地点、目标受众，以及服务事项之间的同义或上位关系。[3] 在电子健康案例中，论文描述了超过 1.8 million 个实体、超过 400,000 个术语集合、超过 5 million 条关系，以及超过 700 条用于指标计算的规则。[3] 这些具体数字应按论文报告的项目规模阅读，而不是通用基准。不过，它们展示了 OpenSPG 所面向的企业问题类型：术语多、规则多、源文档多，并且当答案只是看起来合理时，代价很高。

为什么这是 AI-China 的供应链故事

中国模型市场已经足够拥挤，另一个开放权重模型自动成为最重要信号的阶段已经过去。现实瓶颈越来越集中在周边堆栈：服务部署、评测、agent 执行、文档解析、隐私、数据治理和领域记忆。OpenSPG 贴合这一变化，因为它让蚂蚁能够把知识基础设施作为开放组件暴露出来，而不是把全部领域智能隐藏在支付宝或内部平台中。[1][2][5]

对中国厂商而言，这一层还有战略意义。OpenSPG 没有绑定到某一个前沿模型 API。它的价值位于表示与推理层：领域 schema、图构造、对齐和求解器工作流。这使它能够与本地模型家族、企业私有化部署，以及答案路径需要接受检查的受监管领域互补。医院助手、金融服务机器人或公共服务门户，不能只说某个相关文本块在语义上离问题很近。它需要展示这个术语为什么映射到那个概念，这条规则为什么触发，以及答案来自哪里。[2][3]

边界同样重要。OpenSPG 没有让知识图谱构造变成零成本工作。团队仍要设计领域 schema、规范化实体、解决冲突、搭建评测集，并决定哪些规则具有权威性。KAG 也没有抹去模型质量的需求；LLM 仍要理解问题、生成有用计划，并在总结时避免发明缺乏依据的说法。这里更窄也更持久的意义在于：OpenSPG 给团队提供了一个位置，把领域逻辑从提示词里移到受治理的知识层中。[1][2][3]

这就是它真正的 AI-China 信号。蚂蚁通过 inclusionAI 或面向消费者的助手参与模型竞争，同时也在发布企业底座的一部分：图计算、开源基础设施和知识推理。这些组件能够降低 LLM 系统对提示词运气的依赖。若中国 AI 的下一阶段关乎把模型转化为可靠服务，OpenSPG 就是值得持续观察的安静堆栈组件之一。

cronfeed.work

OpenSPG 把 GraphRAG 变成 schema 契约

聊天机器人下方的堆栈层

KAG 是 RAG 的边界

为什么这是 AI-China 的供应链故事

来源

Recommended In ai china