推理层争夺眼球,嵌入层铺设轨道。
中国每一条生产级 RAG 流水线都有同一个上游依赖:一个将文本转换为高维向量供数据库检索的模型。这一步——嵌入——在大语言模型看到任何召回文档之前,就已决定了检索精度的上限。2023 年中以来,面对"用哪个嵌入模型"这一问题,中文检索场景的默认答案指向了同一个来源:北京智源人工智能研究院(BAAI)发布的 BGE 系列。
要理解这一格局的形成,需要把握两条线索:揭示差距的 C-MTEB 基准测试,以及填补差距的 C-Pack 发布包。
揭示差距的基准测试
多语言嵌入模型——text-embedding-ada-002、E5-large-v2、multilingual-e5-large——的设计目标是跨语言泛化。用于中文检索,它们勉强可用;与专门在中文语料上训练、在中文检索、分类与聚类任务上评估的模型相比,差距是真实存在的。
C-MTEB(中文大规模文本嵌入基准)用数字标定了这条差距 [1]。该基准与 C-Pack 论文于 2023 年同步发布,覆盖检索、语义文本相似度、双语文本挖掘与分类六类中文任务。多语言模型在这些任务上的表现落差稳定,足以在生产级检索精度层面构成实质影响。text-embedding-ada-002 这类模型在宏观层面能够正确排序文档;在区分中文法律或金融文本中"相关"与"相近"内容的精细消歧任务上,则表现欠佳。
BGE-large-zh-v1.5——初代发布——在 C-MTEB 检索任务上超越了当时所有可用的多语言模型 [1][4]。差距并不微弱。
C-Pack:作为供应链的发布包
C-Pack 采用完整部署包形态,超出单一权重文件的发布形式 [1]。它一次性附带了三样东西:
- 多尺寸 BGE 权重(small、base、large),针对中文检索优化
- FlagEmbedding——一个将推理、微调流程与适配器管理封装在统一接口内的 Python 库 [2]
- C-MTEB 基准定义与评估代码,团队可复现已发布结果,也可在自有语料上运行私有领域评测
这种打包形式对采用率至关重要。评估嵌入方案的工程团队可以在一天之内完成全流程检索基准测试:在自有数据上跑完评估、与已发布结果对比、再用同一套工具链在领域文本上进行微调。从开源权重到部署端点的供应链,整条路径收录在同一个 GitHub 仓库里。
BGE-M3:化解多语言路由决策
在纯中文场景以外,对生产部署影响最深远的 BGE 版本是 2024 年初发布的 BGE-M3 [3]。M3 代表三重能力:多语言(multi-lingual)、多功能(multi-functionality,同一模型同时支持稠密、稀疏与多向量检索)、多粒度(multi-granularity,覆盖从单句到 8192 个 token 的文档)。
工程层面的影响很直接:此前需要为中文内容配置一个中文模型、为英文/日文/韩文内容配置另一个模型的跨语言检索栈,可以收敛到单一 BGE-M3 端点。对于知识库语言混杂的企业——金融服务和制造业场景尤为普遍,产品文档以日文或英文写成,而查询以中文发起——BGE-M3 把两个模型的路由问题折叠成了一个。
MTEB 测评结果确认,BGE-M3 在英文及欧洲语言基准上的表现具有竞争力,同时保持了 C-MTEB 的得分水位 [3][4]。
生产部署中的三条分路
截至 2026 年第一季度,中国企业 RAG 部署通常采用以下三种嵌入配置之一:
云端 API。 阿里云 DashScope text-embedding-v2、百度千帆嵌入端点、字节跳动火山引擎嵌入接口 [5]。适合对延迟要求不高的大批量索引任务,且数据驻留要求允许发起外部 API 调用。2025 年以来 token 定价持续压缩;月均超过约十亿 token 的工作负载,GPU 摊销曲线开始倒转,云端 API 的经济性优势明显。
自托管 BGE-M3。 通过 FastAPI 或 Ollama 部署在私有 GPU 实例上。适用于数据驻留要求禁止文档内容传出私有网络、或查询量经济性倾向于内部计算的场景。由于消除了 API 往返开销,延迟剖面更适合 100 毫秒以内的检索 SLA。
微调 BGE 适配器。 在 BGE-large 或 BGE-M3 基础上进行 LoRA 或全量微调,使用领域专属语料 [2]。法律、医疗、金融团队是主要用户群体。适配器检查点保存在团队自有推理集群上;查询路由使用与基础模型相同的 FlagEmbedding 推理接口,从基础权重切换到微调权重不改变生产路径。粘性正在于此:一旦团队在 FlagEmbedding 内完成微调循环并验证了领域检索精度的提升,切换至另一套嵌入方案意味着在不同工具链上重新跑完整个微调流程——而并非替换一个 API 密钥。
端到端供应链的形态
从工程师角度看,这条技术栈收敛为:FlagEmbedding 库 → BGE-M3 基础模型 → 可选领域微调 → 向量数据库(Milvus、Weaviate 或云托管等价物)。嵌入层对下游大语言模型是透明的,它是基础设施意义上的组件——出现在每一个生产部署里,消失在每一个产品演示里。
从供应商角度看,这套格局的粘性比开源标签暗示的更强。阿里云和百度都提供了具备竞争性每 token 定价的托管嵌入 API [5]。但最愿意为嵌入即服务付费的企业,恰恰是对文档内容离开私有网络容忍度最低的企业。这一自选择效应使 BGE 自托管的份额高于仅从 API 定价差来预测的水平。
在大语言模型层的台前竞争与嵌入层的供应链竞争之间,存在明显的落差。BGE 在 2023 年建立的开源优势没有收窄的迹象——FlagEmbedding 随 M3 一代持续更新,C-MTEB 评测基础设施处于活跃维护状态,微调路径已成为企业留存的主要机制。决定中文生产系统检索质量的权重,从一个北京研究机构维护的 GitHub 仓库分发——而这一分发模式,目前没有向托管 API 重新集中的迹象。
来源
- Shitao Xiao 等,"C-Pack: Packaged Resources To Advance General Chinese Embedding",BAAI,2023 年。
- FlagOpen,FlagEmbedding: Retrieval and Retrieval-Augmented LLMs,GitHub 仓库,2023–2026。
- Chen 等,"BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation",BAAI,2024 年。
- MTEB 排行榜,Hugging Face Spaces——BGE 模型家族评测结果。
- 阿里云 Model Studio,文本嵌入 API 文档。