截至 2026-05-31 UTC,阅读阿里巴巴 RTP-LLM 论文的有效方式,不在于把它当作又一个“快于 vLLM”的标题。更锋利的 AI-China 信号在于,阿里巴巴正在提出一项受生产边界约束的推理主张:服务模型的难点不落在某个孤立 kernel 上,而落在从模型加载到请求调度、prefill/decode 分离、KV-cache 复用、多模态处理、speculative decoding、量化推理和业务单元流量的整条路径上。[1][2]
这件事重要,是因为中国模型竞赛已经形成拥挤的强 checkpoint 表层:Qwen、DeepSeek、Kimi、GLM、MiniMax、ERNIE、Hunyuan、InternLM、MiniCPM 等都在其中。下一层约束不只是谁能在公开表格里拿到高分,还包括供应方能否在真实用户成批到来、多轮提问、附带图片、触发推理路径,并期待延迟像日常产品一样平稳时,让多个模型家族保持低成本、低响应延迟与稳定运行。
图片语境:封面使用的是 Wikimedia Commons 上阿里巴巴集团北京总部位于望京绿地中心的真实照片。它是一张摄影图像,属于生成式视觉、示意图、图表或合成 AI 隐喻之外的真实照片。它适合本文,因为 RTP-LLM 被放在阿里巴巴生产基础设施中评估,并且超出纯学术原型的范围。[6]
基准边界异常明确
这篇论文于 2026-05-28 提交到 arXiv,开宗明义地给出了核心边界:RTP-LLM 已经部署在阿里巴巴集团内部,并服务 over 100 million users。[1] 这个数字不宜读作中性的市场份额统计。它是一个范围标记。阿里巴巴要求读者把这套系统作为触达广泛内部需求的基础设施来判断,而不只是带有合成吞吐曲线的实验室框架。
评估范围也宽于单一数字。论文称,它用受控基准和真实生产工作负载,测试了从 8B 到 235B parameters 的模型架构。[1] 这很重要,因为推理系统会随着模型规模、负载组成、缓存行为、模态和流量形态的不同,在不同位置失效。一个小型 dense chat model 可以让服务栈显得很整洁;更大的 MoE model、多模态请求或推理密集型会话,则会暴露另一组瓶颈。
阿里巴巴报告的差值足够大,值得关注,但这些数字必须与对应设置绑定阅读。论文报告了 4.7x to 6.3x 更快的模型加载、生产流量调度中 35% to 37% 更低的 P95 time-to-first-token、215% 的 cache-reuse improvement、1.12x to 2.48x 的 speculative-decoding 吞吐增益、1.86x to 2.52x 的多模态推理吞吐增益,以及量化推理中 35% to 40% 更低的 batch latency 与 1.9x to 3.0x 更好的 TTFT。[1] 这些结果不构成所有部署的通用保证。它们是阿里巴巴在论文基准与生产 trace 边界内发布的结果。
这种边界纪律,是这次发布最有用的部分。在 AI-China 语境里,基准主张常被压平为排序:最快、最便宜、最长上下文、最强推理、最好的多模态演示。RTP-LLM 更适合被读成一组评估问题。模型变化时,加载成本是多少?prefill 和 decode 需要不同硬件行为时,系统怎样调度?多少重复上下文可以复用?流量变得杂乱时,speculative decoding 仍然有帮助吗?多模态服务能否保住吞吐,同时避免悄悄变成昂贵侧路?
架构关心流量,也关心优雅之外的压力
RTP-LLM 的公开代码库把它描述为阿里巴巴的高性能 LLM 推理引擎,并称它已经广泛用于淘宝、天猫、闲鱼、菜鸟、高德、饿了么、AliExpress 和 Lazada 等阿里巴巴业务单元。[2] 这份清单重要,因为这些入口并不代表一种整洁负载。搜索改写、购物辅助、地图、物流、外卖、国际电商和客服,都带来不同形态的输入、输出、延迟敏感度和可用性预期。
特性列表正是从这种压力中展开。代码库列出了 PagedAttention、FlashAttention、FlashDecoding、weight-only INT8 quantization、通过 GPTQ 和 AWQ 实现的 INT4 quantization、adaptive KV-cache quantization、dynamic-batching optimization、V100-specific optimization、Hugging Face weight-format support、从单个模型实例提供 multi-LoRA serving、多模态输入、多机多 GPU tensor parallelism、contextual prefix cache、system prompt cache 和 speculative decoding。[2]
这是一套相当庞杂的机制,但主题保持一致:RTP-LLM 试图让服务层避免变成一次性例外的堆积。大型公司需要的不只是当前旗舰模型的一条快速路径。它需要一种方式来吸收模型更替、模型规模差异、adapter 使用、多模态流量、旧 GPU 集群、cache 复用和业务特定 prompt,而不在每一次变化时重建服务平台。
prefill/decode 分离是最清楚的例子。在 transformer 服务中,prefill 需要处理完整 prompt 上下文,计算负担较重;decode 逐步生成 token,对内存带宽更敏感。RTP-LLM 论文称,其 Prefill-Decode Disaggregation 架构将这两个阶段解耦,并与分层多级 KV-cache 管理结合。[1] 战略要点不只在于降低延迟,还在于资源匹配。如果与中国相关的供应方受制于高端加速器访问,它们就有强烈动机从已有集群中挤出更多有效工作。
生产 trace 改变“快”的含义
阿里巴巴 ServeGen 项目的配套语境说明了为什么受生产边界约束的服务很难伪造。ServeGen 称,它基于阿里云百炼上 12 production models 的数十亿次推理请求分析,覆盖突发式请求到达、输入与输出长度分布漂移、多模态 Qwen-VL 工作负载,以及 DeepSeek-R1 工作负载中的双峰推理长度行为。[4] 相关 arXiv 论文称,在一个生产用例中,与朴素工作负载生成相比,该框架避免了 50% 的 under-provisioning。[3]
这应当改变读者评估 RTP-LLM 的方式。如果工作负载模型过于平滑,服务引擎就会被优化到一个并不存在的世界里。真实 LLM 流量包含不均匀到达、长短 prompt、重复 system context、多轮会话、图片 payload、推理 trace,以及请求围绕办公节奏或业务事件聚集的企业用户。在这种环境里,单看 throughput 还不够。真正有用的测量,是吞吐、尾部延迟、cache 复用、内存压力和部署恢复能力能否同时站住。
这也是 cache 复用主张比初看更重要的原因。生产流量调度下 215% 的 cache reuse improvement,不只是速度主张。[1] 它同时是在主张,系统能够识别重复上下文并路由请求,从而减少服务系统的冗余工作。对于购物、地图、客服、物流和企业助手入口,许多请求共享很长的 system prompt、工具指令、用户历史或相似文档上下文。cache 复用把这种重复转化为基础设施杠杆。
这里也存在边界。cache 复用只有在产品入口、隐私模型、路由策略和失效规则使复用处于安全范围内时,才会改善经济性。供应方不能盲目跨用户或跨任务共享上下文。阿里巴巴论文给出的是性能结果;运营方仍要追问哪些上下文可以复用、保留多久、如何隔离,以及 prompt template 变化时会发生什么。
为什么这是 AI-China 信号
RTP-LLM 属于 AI-China 报道范围,因为它显示阿里巴巴正在可见模型卡下方竞争。Qwen 仍然是大多数读者最容易注意到的模型品牌。ModelScope、ms-swift、MNN、ACK deployment guides 和 RTP-LLM 则指向另一种野心:阿里巴巴想要掌握围绕模型的运行通道,从模型分发和后训练,到本地或云端推理,再到 Kubernetes 部署。[2][5]
阿里云 ACK 文档让这条通道变得具体。它的 RTP-LLM 部署指南演示了如何通过自定义推理服务、挂载的模型 PVC、readiness probes、RESTful port 8000、一个 replica,以及单张 A10 或 T4 GPU image path 来服务 Qwen1.5-4B-Chat。[5] 这个例子相较 2026 年论文已经偏旧,但这正是重点的一部分。RTP-LLM 已经超出新鲜 arXiv artifact 的单一形态。它已经拥有把推理引擎转化为平台团队可运行对象的云部署入口。
对中国 AI 厂商而言,这种栈深度越来越具有战略意义。开放权重扩大了模型访问面,但生产推理仍然昂贵,并且运营上很严苛。如果一家云或平台公司能够降低加载时间、改善 TTFT、安全复用 cache、高效服务多模态请求,并让量化路径保持可接受,那么它就能把模型速度转化为可用产品速度。若服务层跟不上,可见的发布节奏意义会变小。
与 vLLM 和 SGLang 的比较需要谨慎阅读。vLLM 自身文档展示了很宽的生产级特性表层:online serving、OpenAI-compatible APIs、disaggregated serving、automatic prefix caching、speculative decoding、多模态输入、quantization、tool calling、observability、Kubernetes deployment,以及大量集成。[7] RTP-LLM 面对的是快速移动的服务框架领域,而静态基线只能提供有限参照。合适结论取决于工作负载、硬件、模型家族和运营成熟度。
因此,最有力的读法要避开“阿里巴巴已经解决推理”这类过满判断。更强的读法要窄一些:阿里巴巴正在为服务层发布一个生产形态的基准包络,而这个包络正是中国 AI 竞争正在迁移的地方。模型质量仍然重要,但经济问题越来越集中在供应方能否服务许多模型、许多模态、许多用户和许多业务入口,同时避免延迟和 GPU 成本吞没产品。
什么会构成确认
第一项确认,是阿里巴巴论文之外出现可复现的运营方证据。如果第三方用户能够在自己的模型、硬件和流量上复现同方向收益,RTP-LLM 就会超出内部优化故事。[1][2]
第二项确认,是面向当前 Qwen、DeepSeek、Kimi、GLM 和多模态家族的公开部署配方更加清晰,而不只停留在较旧的 Qwen1.5 示例上。[2][5] 生产相关性取决于能否跟上模型生态。
第三项确认,是围绕尾部延迟、cache 隔离、失败恢复和混合负载调度的 observability 更强。这些位置决定服务系统变得可信还是痛苦。吞吐增益很吸引人;运营可预测性才让团队愿意把承载收入的流量路由进这套栈。
收窄到结尾,RTP-LLM 的意义在于,它让阿里巴巴的推理论证在正确层面上变得可审计。论文中的数字很有意思,但更大的信号是测试形态:生产工作负载、多种模型规模、cache 复用、多模态服务、量化推理,以及阿里巴巴自己的业务流量。在 AI-China 语境中,下一阶段严肃竞争就在这里,不只是谁发布下一个模型,还包括谁能让模型便宜、快速到足以进入真实产品。[1][2][3][4]
来源
- Tan 等,"RTP-LLM: High-Performance Alibaba LLM Inference Engine," arXiv:2605.29639(2026 年 5 月 28 日提交;架构、生产部署主张、基准边界和报告的性能差值)。
- Alibaba,
alibaba/rtp-llmGitHub 仓库 README(项目描述、阿里巴巴业务单元使用情况、发布说明、特性、模型服务能力和 Apache-2.0 源码分发)。 - Xiang 等,"ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production," arXiv:2505.09999(2026 年 5 月 11 日修订;生产工作负载刻画和 under-provisioning 结果)。
- Alibaba,
alibaba/ServeGenGitHub 仓库 README(覆盖阿里云百炼 12 个生产模型的数十亿次推理请求、突发到达、多模态和推理工作负载类别)。 - Alibaba Cloud,"Use rtp-llm to deploy Qwen inference services in ACK"(官方 Kubernetes 部署指南,包含 Qwen1.5-4B-Chat、GPU、readiness probe、image、PVC 和 REST serving 细节)。
- Wikimedia Commons,N509FZ 的 "File:Alibaba Group Beijing headquarters at Greenland Center, Wangjing (20210410104117).jpg"(本文真实摄影图片的来源页)。
- vLLM project documentation(当前服务框架特性表层,包括 online serving、disaggregated serving、prefix caching、speculative decoding、多模态输入、quantization、tool calling 和部署主题)。