AI-China 基准与评测札记：Qwen3.6 的开源线正在缩小编码代理的部署体积

这张阿里巴巴杭州总部的真实外景照片适合本文，因为这里讨论的是公司层面的打包策略：阿里正在围绕可部署的编码模型收紧开源 Qwen 梯度，同时给出一条清晰的基准上升曲线。[5]

截至 2026-04-24 UTC，理解阿里巴巴这轮 Qwen3.6 开源权重序列，更扎实的入口落在 部署体积压缩。Qwen 团队先在 2026 年 4 月 16 日 放出 Qwen3.6-35B-A3B，又在 4 月 22 日 接上一个稠密版本 Qwen3.6-27B。[2] 基准提升当然重要，真正有分量的信号却落在另一层：阿里正在把编码代理能力往更容易自托管、更容易接入既有工具链、更容易被团队打包采用的模型尺寸里压。[1][2][3][4]

评测表本身已经把这条线索摆了出来。Qwen3.6-35B-A3B 的官方模型卡写明，这个模型总参数 350 亿，推理时激活参数只有 30 亿。[3] 这本身就是一条打包声明，公开编码基准又把它继续坐实：相较 Qwen3.5-35B-A3B，Terminal-Bench 2.0 从 40.5 提到 51.5，NL2Repo 从 20.5 提到 29.4，SWE-bench Pro 从 44.6 提到 49.5。[3] 五天之后推出的稠密版 Qwen3.6-27B 又把同一判断向前推了一步。它的模型卡显示，这个 27B 稠密模型在 SWE-bench Verified（77.2 对 76.2）、SWE-bench Pro（53.5 对 50.9）、Terminal-Bench 2.0（59.3 对 52.5）与 NL2Repo（36.2 对 32.2）上，已经超过上一代开源旗舰 Qwen3.5-397B-A17B。[4] 这更像是一条前沿能力被压进更能落地部署外形的轨迹。

配图说明：封面采用 Wikimedia Commons 上的阿里巴巴杭州总部实景照片。它适合本文，因为这里讨论的是 Qwen 在公司层面的打包与分发选择，基准图之外还有一套完整的公司级发布逻辑。[5]

更重要的基准故事，落在双轨发布

若只看 Qwen3.6-35B-A3B，这次发布很容易被读成一套熟悉的稀疏模型论述：激活参数更低，成绩不错，效率叙事继续向前。[1][3] 随后跟上的 Qwen3.6-27B 改变了整周发布的意义。[2][4] 阿里给出的更像一组并行选项，两条部署路径同时展开。

第一条是 35B-A3B 这条稀疏线：总参数仍然很大，运行时只激活 30 亿，官方架构摘要里写出 256 个专家，其中 8 个路由专家加 1 个共享专家在推理中生效。[3] 第二条是 27B 这条稠密线：总规模低于旧的 397B-A17B 旗舰，在官方材料里又被放到一个更简洁的运维对象位置，因为它没有 MoE 路由复杂度，同时还能把核心编码指标往上推。[4] 如果这两条线成绩平平，它看起来只是产品目录的加长。现在两条线都给出了清晰的公开基准增量，更贴切的读法就落在一件事上：阿里想让 Qwen 的开源线覆盖开发者面前那道真实分叉，亦即 更稀疏、更省运行成本，以及 更稠密、更易于直接服务。[3][4]

这也是这篇 ai-china 文章真正要指出的地方。眼下更耐久的动作，正在变成“谁能把可信的编码能力压进团队愿意真的去运行的模型形态里”。

这些数字支撑的是部署判断，也把边界压得更清楚

公开基准已经足够支撑一个明确判断，也足够把判断边界压清楚。Qwen3.6-35B-A3B 的位置很清楚：它给出了一组强增量。[3] 官方对比表又显示，Qwen3.6-27B 在若干编码代理指标上继续向上，包括 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、NL2Repo、SkillsBench Avg5 与 Claw-Eval Pass^3。[4] 顺着这个角度看，这轮发布的重点落在阿里找到了一组更小的配置，使旧式‘超大开源旗舰’路线在许多编码工作负载里显得没那么必要。[3][4]

架构摘要也把这个方向继续钉牢。两款开源模型都给出 262,144 tokens 的原生上下文，以及可扩展到 1,010,000 tokens 的上限。[3][4] GitHub README 与模型卡同时写出了 transformers、SGLang、vLLM 的实际部署示例，服务示例里使用 4 路 tensor parallel。[2][3] 这些细节的意义在于，它把发布从一条论文式主张，推进成了一条运维式主张。阿里说的不只是“看一看分数”，它还在说“这批模型怎样进入 Qwen Studio、Model Studio、本地推理栈与 agent 工具面”。[2][3][4]

由此展开，这轮基准故事的形状就清楚了：公司正在把有用的编码能力从“超大开源旗舰”层，往仍然不轻、却比 397B-A17B 这一类模型更接近普通工程环境的对象里下压。[4]

评测表里哪些值得信，哪些更适合谨慎使用

放在基准与评测札记的语境里，这次发布最可靠的证据，落在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0 与 NL2Repo 这类公开度更高、可读性更强的任务上。[3][4] 这些数字已经足够支撑本文的核心判断。

那些更带产品内部形状的指标，需要更谨慎地摆放。QwenClawBench、QwenWebBench，以及部分贴近产品流程的 pass 指标，仍然有价值，因为它们能够反映阿里自己最看重的运行环境。[3][4] 这些指标更适合放在次一级证据位置，等到外部复现与第三方报告开始稳定出现相近差距之后，再继续抬高权重。这里要守住的边界也很清楚：本文此处关注的是阿里正在把能力重新打包进更好的部署尺寸，公开基准已经足够支撑这条更窄也更扎实的结论。[3][4]

这件事为什么对当下的 AI-China 重要

4 月初，阿里通过 Qwen3.6-Plus 去讲托管旗舰、企业 agent、Qwen App 与 Model Studio 之间的桥。[1] 4 月 16 日与 22 日的开源发布，则把这套梯子的下半段补齐了。[2][3][4] 连在一起看，阿里想做的事情已经很清楚：用同一个 Qwen 家族覆盖不止一种买家，上层是托管与企业场景，中层是开源开发者，下层则是那些需要比旧式开源旗舰更轻运维对象的本地或混合部署。

这在中国模型竞争里是一条很有分量的信号。竞赛正在从单纯的参数奇观，往开源权重、API、上下文窗口、agent 接口与部署配方能否被打包成团队真会采用的东西上移。Qwen3.6 的 README 把这种意图写得很明白，它把“稳定性与真实世界效用”放到前面，再把 Qwen Studio、Alibaba Cloud Model Studio、Qwen Code、Qwen Agent、本地 transformers、llama.cpp、SGLang 与 vLLM 排进同一张表面。[2] 顺着这个角度看，阿里其实是在把基准增量送进一套分发系统。

接下来最值得盯的验证点很清楚。第一，看 qwen3.6-flash 会不会从“coming soon”的过渡标签，进入 Model Studio 的稳定主路由。[1] 第二，看第三方编码外壳会不会持续为 27B 与 35B-A3B 这两条模型线维护一等公民级别的接入配方。[2][4] 第三，看社区复现能否证明这些公开编码增量在阿里发布材料之外依然成立。[3][4]

这三件事若能继续咬合，2026 年 4 月的 Qwen3.6 开源序列会留下一个更长尾的意义：它让更小的编码代理模型在更多时候显得已经够用。

cronfeed.work

AI-China 基准与评测札记：Qwen3.6 的开源线正在缩小编码代理的部署体积

更重要的基准故事，落在双轨发布

这些数字支撑的是部署判断，也把边界压得更清楚

评测表里哪些值得信，哪些更适合谨慎使用

这件事为什么对当下的 AI-China 重要

来源

Recommended In ai china