AI-China 基准与评测笔记：Hy3 preview 让腾讯第一次拥有一条站得住脚的开放编程智能体通道

这张腾讯深圳总部的真实照片适合本文，因为这里更值得看的信号落在公司级包装动作。Hy3 preview 的分量，正在于腾讯可以同时把它送进开放权重通道与编程智能体工具表面。[5]

截至 2026-05-02 UTC，理解腾讯 Hy3 preview 这次发布，更扎实的入口落在参数标题之下、基准表格之上。4 月 23 日 的开源动作之所以重要，在于腾讯第一次在公开层面拿出了一条站得住脚的开放编程智能体通道：它可以在主流任务上被判断，可以按任务深浅切换推理强度，也可以顺着腾讯自己的分发层直接落进开发者工具里。[1][2][3][4]

模型卡把基本轮廓写得很清楚。Hy3 preview 是一款 295B 总参数的混合专家模型，包含 21B 激活参数、3.8B MTP 层参数，支持 256K 上下文，拥有 192 个专家并采用 top-8 激活，同时建议在 8 张 GPU 上部署，例如 H20-3e 这一档的大显存硬件。[1] 这当然谈不上轻量本地模型。它已经足以让这次发布被读成一条认真的开放通道，而并非一份只为制造声量的样品。

模型卡里更值得盯住的一句，不落在架构描述；它落在编辑判断。腾讯明确写出，代码与智能体能力的提升最为显著，并把这一点连到重建后的强化学习基础设施与更大规模的训练任务上。[1] 若这句话只停在口号层，分量会很薄。页面没有停在这里。在同一模型页挂出的公开评测结果里，Hy3 preview 在 SWE-bench Verified 上给出 74.4，在 Terminal-Bench 2.0 上给出 54.4。[1] 这些数字没有替整个市场裁决胜负，已经足以支撑一条收束得很窄的判断：腾讯现在拥有了一款可以进入编程智能体讨论圈的开放模型，而不用继续站在讨论之外。

图片说明：题图采用 Wikimedia Commons 上的腾讯滨海大厦真实照片。这个选择合适，是因为本文讨论的是腾讯围绕 Hy3 preview 的分发姿态与产品姿态，重点不在一张脱离公司动作的合成基准图。[5]

这张评测单，已经足以改写腾讯的位置

放在这一种 style mode 里，关键问题不在于腾讯是否已经做出所有开放模型里最强的编程成绩。更锋利的问题是，Hy3 preview 是否已经跨过了可信通道的门槛。

从公开材料看，答案已经偏向肯定。腾讯在模型卡里先把“代码与智能体提升最大”这件事说清楚，再把读者带到 SWE-bench Verified 与 Terminal-Bench 2.0 这些主流编程智能体基准上。[1] 页面挂出的评测结果分别是 74.4 与 54.4。[1] 甚至在 instruct 模型部分之前，预训练模型的表格也已经给出一层背景：Hy3 preview-Base 在 MBPP-plus 78.71、CRUXEval-I 71.19、LiveCodeBench-v6 34.86 这些代码相关指标上，已经处在一条可以被认真比较的位置上。[1]

这组信息之所以有分量，在于腾讯以往更强的是产品叙事，开放模型叙事相对单薄。外界一直有很多理由去观察混元在腾讯产品里的表现，真正能让开发者把腾讯放进公开编程候选列表的信号却不算多。Hy3 preview 把这件事往前推了一步。模型不需要赢下每一张榜，才有能力改写市场判断。它只需要拿出一组足以让工程团队开始认真考虑真实工作流的分数。

这里仍有一条边界需要守住。模型卡同时也摆出了 CL-bench、CL-bench-Life、ClawEval、WildClawBench、Hy-Backend、Hy-SWE Max 这些内部或更偏自家语境的评测集合。[1] 它们当然有方向意义，尤其能透露腾讯自己最在意什么。它们承担的证据权重仍然应该低于主流公开基准。Hy3 的最强论证，因而更适合先落在公开编程智能体分数，再把这些内部数据当成补充纹理，而不把它们当作最后裁决。

这次开源真正重要的地方，在于腾讯把权重和控制一起摆了出来

若 Hy3 preview 只是一次模型权重公开，故事会窄很多。腾讯自己的材料给出的是另一层更有用的东西：公司把这次开源和明确的推理控制、立刻可用的工具分发绑在了一起。

模型卡的 quickstart 已经把这种工作方式写出来了。腾讯通过 OpenAI 兼容 API 展示 Hy3 preview，并给出两种很具体的运行姿态：reasoning_effort 设为 "no_think" 时走直接响应，设为 "high" 时处理更复杂的数学、编程与推理任务。[1] 这已经不只是推理接口层的小说明，它更像一条产品判断。腾讯正在告诉开发者，Hy3 preview 更适合按任务深度被路由，而不适合被当成只有一种延迟人格的固定模型。

TokenHub 的《深度思考》文档把这层含义压得更实。页面写到，reasoning_effort 可以设置为 low、medium、high，而 Hy3 preview 的默认值是 low。[2] 这个默认设置本身就很说明问题。腾讯没有把它包装成一款永远昂贵、永远深思考的系统。默认值优先速度，更深的推理强度在高难度工作负载出现时再被调起。[2]

也正因为如此，这次发布更像一条通道，而不只是一座奖杯。通道需要操作规则，Hy3 preview 在公开层面已经拥有了这些规则。

腾讯已经开始把 Hy3 送进编程工具表面

下一步的问题，是腾讯是否把模型停在 API 层，还是继续推进到了开发者真正会停留的工具里。文档给出的答案来得很快。

腾讯的 Cline 接入指南写得相当直接。用户可以通过 OpenAI Compatible 提供方接入 Hy3 preview，把 base URL 指向 https://tokenhub.tencentmaas.com/v1，再把模型 ID 设为 hy3-preview。[3] 这看上去像一条很小的兼容性说明，实质上是一项分发决定。腾讯正在教开发者通过熟悉的编程助手表面去消费 Hy3 preview，而不让他们停在专有入口之外徘徊。

OpenClaw 文档又把同一逻辑往前推了一层。[4] 腾讯把 tencent-tokenhub/hy3-preview 写成默认模型设置，又把 OpenClaw 的 think 等级映射到 Hy3 自己的推理行为上，并说明可以在聊天里用 /think low 或 /think high 切换模式。[4] 这张映射表的不对称性很值得看：off 对应极速的 no-think，而 high 与 xhigh 都收束到 Hy3 的 high 模式。[4] 这说明腾讯给出的目标不在无限细分推理刻度；它选择的是一条足够简单、足够能工作的操作阶梯。

换到更直白的层面上说，腾讯这次并没有只把 Hy3 preview 开源出来。它已经把模型推进到了编程智能体需求真正会出现的工具表面里。

这条开放通道已经能说什么，还不能说什么

本文能站住的最强判断，其实收得很窄。Hy3 preview 让腾讯第一次拥有一条站得住脚的开放编程智能体通道，原因落在三件事同时成立。

第一，公开编程智能体分数已经足以让模型在真实基准表面上显得可读。[1]

第二，腾讯把推理深度变成了一个可以操作的公开契约，而并非把模型锁进单一的延迟形态。[1][2]

第三，腾讯已经通过 TokenHub 把模型送进 Cline 与 OpenClaw 这类编程表面。[3][4]

更强的说法暂时还不宜说满。Hy3 preview 仍然是一款非常大的模型，硬件画像离轻松自托管还很远。[1] 公开文档本身无法证明它已经获得广泛的第三方生产采用。许可证采用的是腾讯自己的 community license，也没有落入那种完全商品化的极宽松开放方式。[1] 编程基准的结论仍然需要更多外部复跑，才适合被看成稳固的市场领先。

即便守住这些边界，这次发布仍然改变了腾讯在 ai-china 里的位置。Hy3 preview 让腾讯第一次不用只靠封装在产品里的闭环去论证自己的编程智能体相关性。它现在拥有了一条开放权重路线，可以被公开基准衡量，可以按推理深度切换，又可以低摩擦地插进 agent 工具里。

因此，真正的故事超出 295B。真正的故事是，腾讯现在终于有了一款可以和人们实际使用的编程智能体工作流放进同一张图里的开放模型。

cronfeed.work

AI-China 基准与评测笔记：Hy3 preview 让腾讯第一次拥有一条站得住脚的开放编程智能体通道

这张评测单，已经足以改写腾讯的位置

这次开源真正重要的地方，在于腾讯把权重和控制一起摆了出来

腾讯已经开始把 Hy3 送进编程工具表面

这条开放通道已经能说什么，还不能说什么

来源

Recommended In ai china