截至 2026-05-03 UTC,理解腾讯 Hunyuan-A13B 这次发布,入口不在“又一款中国开放模型”,也不在一张需要远观的榜单。关键变化发生在 2025-06-26/27:腾讯一次性放出了 Hunyuan-A13B-PretrainHunyuan-A13B-InstructFP8GPTQ-Int4 版本,同时附上技术报告和训练推理手册。[1][2][3] 这套组合交给开发者的内容远多于“这里有一组权重”。它把腾讯对模型用途、运行方式、可调边界,以及商业边界的理解一并摆了出来。

因此,Hunyuan-A13B 更适合被理解成一份部署契约。这里的契约包含许可证文本,也包含模型卡、代码仓、运行说明与许可证合在一起形成的产品信号。腾讯等于在说:这是一款80B 总参数13B 激活参数、原生支持 256K 上下文、带有快慢思考切换、具备多种部署精度格式、并且给出标准推理栈入口的开放模型。[1][2][3] 顺着这个角度展开,Hunyuan-A13B 从发布会名词转入部署计划,开始显露工程对象的形状。

图片说明:题图采用 Wikimedia Commons 上的腾讯海滨大厦实拍照片。它适合本文,正在于这里讨论的是腾讯围绕 Hunyuan-A13B 的包装与分发姿态;脱离公司主体的抽象 AI 视觉图承载不了这一层关系。[7]

腾讯把模型和操作选择一起打包放了出来

先看容易被忽略的一层:腾讯这次一起放出的,既有模型,也有操作细节。Hugging Face 模型卡和技术报告反复强调同一组核心信息:80B 总参数13B 激活参数256K 上下文、分组查询注意力、多种量化格式,以及一个在发布当日就已经包含多种部署形态的模型家族。[1][2] GitHub 仓库又把这套思路继续推到了运行层,直接给出基于 vLLMSGLang 的 Docker 镜像、tensor-parallel-size 示例、ModelScope 下载路径,以及面向 agent 工作流的工具解析说明。[3]

这种发布形态和早先常见的模型发布节奏拉开了距离。过去不少开放模型先放出一个旗舰 checkpoint,随后把量化、服务、工具调用和运行说明留给社区慢慢补。腾讯这次交出的,是一组模型和一套手册。发布备注里值得留下的重点,一端是“腾讯加入开放模型阵营”,另一端是它在发布当日就把操作选择写清楚

思考模式就是其中一个典型例子。腾讯的中文 README 直接写明,instruct 版本默认带有较慢的推理模式,同时也能在模板层关闭思维链,或者用 /no_think/think 在提示词层面强制切换。[1] 这件事的意义相当具体。许多模型发布谈“推理”,更像在给模型添加气质;腾讯这里把它做成了一道开关。思考行为一旦成为显式控制面,模型就从榜单对象转向工程接口,具备按延迟预算、按任务深度进入路由系统的条件。

榜单只能当方向看,真正重要的是服务数学

腾讯当然希望榜单也完成一部分叙事。在 Hugging Face 模型卡里,Hunyuan-A13B 在预训练比较表中给出 MMLU 88.17MBPP 83.86GPQA 49.12,而 instruct 部分则把它放进数学、科学、代码与 agent 任务的对比里。[1] 这些数字有参考价值,但边界也要守住。公开页面没有把每一项评测的完整设置全部展开,因此更合适的读法,是把这些结果当成方向性证据,暂且不把它们视为已经完全落定的市场裁决。[1]

更深的信号在另一层。腾讯想放进一句话里的,是 80B 总参数里只有 13B 参与激活 这件事。[1][2] 放到现实部署层面,这正是腾讯对当下中国模型市场的一种回答。过大的模型流动成本高,过轻的模型又容易失去分量。Hunyuan-A13B 想占住的是中间地带:足够大,仍然严肃;结构又足够克制,能够更自然地进入标准部署预算。

技术报告把这种读法又往前推了一层。腾讯写到,这是一套 32 层 细粒度 MoE 结构,带有 64 个路由专家、top-8 路由策略,并在 20T tokens 以上 训练完成。[2] 这些信息的作用,主要在于说明腾讯怎样让一款仍然保有规模感的模型,把活跃计算路径缩短。放在 ai-china 语境里,这首先是一条生态信号。它说明腾讯想要的是一款开发者真能放进部署计划里的开放模型,实验室展示物只能覆盖其中很小的一层。

主流推理栈让这次发布继续流动

Hunyuan-A13B 最有力量的一层,出现在发布之后。腾讯自己的仓库已经给出了完整运行路线,包括围绕 vLLM 0.8.5 与 SGLang 的 Docker 镜像、标准 API 服务启动方式,以及工具调用支持。[3] 单看这一步,这次发布就已经比很多只放权重的模型更适合进入工程流程。

后续变化更能说明问题:主流推理生态也开始把它纳入文档。到 2026-04-21vLLM Recipes 已经出现单独的 Hunyuan-A13B Instruct 使用指南,其中直接给出了 vllm serve tencent/Hunyuan-A13B-Instruct 的部署路径,并面向 AMD 硬件写成规范文档。[5] 另一份 vLLM 的 reasoning outputs 文档,也把 hunyuan_a13b 列进了专门的推理解析器支持名单。[6] 模型一旦在主流推理项目里拥有自己的名字和入口,它的状态就变了。它从“腾讯发布的一款模型”,进入了共享的服务词汇表。

也正因为这个变化,这次发布过了数月依然有意义。开放模型的生态地位,无法在权重放出的那一刻自动完成。它要等到运行时栈停止把它当成特殊案例,才会进入长期使用秩序。Hunyuan-A13B 已经走到这一步。腾讯先铺好部署脚手架,推理生态再把这款模型吸收进常规文档和解析支持里。[3][5][6]

许可证把腾讯想要的开放方式写得很明白

部署契约的最后一块,是许可证,而且这里不适合用泛泛的“开源”来含混带过。腾讯为 Hunyuan-A13B 配的社区许可证明确写出:协议不适用于欧盟、英国和韩国,定义领土之外的使用不受许可保护;如果被许可方在发布日对应产品的月活规模超过 1 亿,需要另行向腾讯申请许可;同时,许可证还限制把该模型及其输出用于改进其他 AI 模型,腾讯 Hunyuan 衍生模型除外。[4]

这层限制并未抵消发布本身,它本身就是发布的一部分。腾讯希望 Hunyuan-A13B 能进入开发者渠道、进入推理栈、进入部署试验,但这一切要发生在一个仍然由腾讯掌握地理、规模与下游改进边界的框架里。[4] 这款模型足够开放,能够播种采用和工具支持;它又没有开放到商品化中性权重的程度,不会把腾讯对分发路径的议价能力一并抹平。

这条边界在 ai-china 里尤其重要,因为它把当前许多大型中国模型发布者正在试探的一种平衡写得很清楚:他们想要生态扩散,也想保住模型分发带来的战略筹码。Hunyuan-A13B 把这层妥协展示得很完整。

为什么这次发布仍值得记住

较窄的结论已经足够成立。Hunyuan-A13B 之所以重要,在于腾讯把一场开放模型发布推成了一份部署契约:激活参数效率、推理模式控制、多精度路径、运行时说明,以及后续第三方推理支持,被一起包装成开发者能够直接采用的方案。[1][2][3][5][6] 榜单帮助这场发布传播出去,更耐久的价值则落在包装方式本身。

边界也同样清楚。这场权重释放仍然带有全球流通摩擦。许可证依旧收得很紧,腾讯自己的性能叙事也仍需放在评测边界里阅读。[1][4] 即便如此,Hunyuan-A13B 还是改变了腾讯在开放模型上的姿态。它让腾讯第一次拥有了一款真正能进入模型选择、部署与工具整合流程的公开发布物;首日对比表只是这场发布的浅层入口。

这正是这份发布备注里最值得留下来的信号。

来源

  1. 腾讯,tencent/Hunyuan-A13B-Instruct Hugging Face 模型卡(2025 年 6 月 27 日发布说明、80B 总参数 / 13B 激活参数、256K 上下文、基准表、思考模式控制,以及量化版本)。
  2. 腾讯混元,《Hunyuan A13B Technical Report》GitHub PDF(架构、路由专家、20T tokens 以上训练规模,以及面向高效部署的设计目标)。
  3. Tencent-Hunyuan,Hunyuan-A13B GitHub 仓库(部署手册、vLLM 与 SGLang Docker 镜像、ModelScope 路径、API 服务示例,以及工具调用支持)。
  4. Tencent-Hunyuan,Hunyuan-A13B LICENSE(地域范围、1 亿月活条款,以及禁止用输出改进其他 AI 模型的限制)。
  5. vLLM Recipes,《Hunyuan-A13B Instruct Usage Guide》(2026 年 4 月 21 日;证明 Hunyuan-A13B 已进入主流推理文档,并具备标准 vllm serve 路径)。
  6. vLLM 文档,《Reasoning Outputs》(列出专门的 hunyuan_a13b 推理解析器支持)。
  7. Wikimedia Commons, "File:SZ 深圳 Shenzhen 南山区 Nanshan Haitian 2nd Road Binhai Blvd Road Haixue Road Houhai Blvd 騰訊海濱大廈 Tencent Binhai Towers June 2023 Px3 01.jpg"(本文题图的纪实照片来源页)。