把时间锚定在 2026-04-18 UTC,重读商汤 2025 年 7 月 30 日发布的 SenseNova V6.5,较有用的入口不在“又一轮多模态名次变化”里。更扎实的信号,落在商汤试图接通的三层结构:模型层的图文交织推理,系统层的性价比改善,以及产品层里升级后的 Raccoon,它把这些能力接成办公分析、可视化输出与垂直智能体行为。[1][2][3][4] 顺着这个方向看,V6.5 并非一则单纯的模型升级公告,而是一条 workplace-agent 闭环的公开样机。

这件事放在 ai-china 语境里尤其重要,因为商汤一直不属于最容易被概括而言的那类公司。它并非最典型的开源权重故事,也并非最直接的消费助手故事,更并非最干净的 API 入口故事。它的公开材料,往往在“怎样把模型能力推成可部署工作产物”这一层面上更有解释力。[1][3][4] SenseNova V6.5 正是这条线第一次被讲得相当清楚的节点之一。

图片说明:题图采用商汤在 WAIC 2025 发布现场的官方照片,来源页与发布稿相同。它适合本文,因为这篇文章关心的是一家真实公司怎样把多模态推理接进工作场景,而并非把能力停在抽象榜单里。[1]

这次发布真正改动了什么

商汤在发布页里把升级点压成三条,这三条放在一起读,方向就很明显。第一,SenseNova V6.5 引入了图文交织的多模态思维链。第二,系统架构优化把模型性价比提升到三倍以上。第三,商汤把智能体放进核心叙述,而并非留作附属功能。[1]

这三条本来就应当连起来看。很多多模态发布会停在“模型看得更多”或者“榜单更高”上;商汤这次给出的语言,明显朝另一边推。它要读者接受的是:多模态推理已经可以被理解为一台工作机器的底层部件,推理结构更完整,部署成本更低,上层又有一个有名字的智能体产品来承接。[1]

效率数字也让这层产品意图更难被当成空话。商汤写到,V6.5 带来20% 以上预训练吞吐提升、40%强化学习效率提升、35% 以上推理吞吐提升,并在此基础上把相对 SenseNova V6.0 的整体性价比提升到三倍。[1] 这些数字来自厂商自己,并非中立外部审计;即便如此,它们仍然非常重要,因为它们说明商汤自己在意的变量并不只是能力值,还有能力进入生产环境之后的代价。

模型层变化的意义,在于把视觉推理放进链条里面

这次发布里最深的一层技术线索,是从普通的多模态输入处理,往图文交织思维链推进。[1] 商汤的判断是,主流多模态模型即便能够接收图像,推理过程仍旧过度依赖语言,空间与图形推理这一层并没有真正长进。V6.5 试图做的是,把视觉节点放进推理过程内部,而并非把图像当作前端附件。[1]

这时,后来的 NEO 架构说明文档会把 V6.5 的位置写得更清楚。到了 2025 年 12 月,商汤明确写到,V6.5 已经做到编码器级早融合,把多模态性价比拉到三倍,并率先实现中国商业级的图文交织推理,随后才继续往原生多模态架构推进。[3] 这份后续材料之所以重要,在于它让 V6.5 看起来不像一场孤立的夏季发布,而像一个过渡阶段:商汤已经开始从过去那套“视觉编码器加语言模型”的拼接范式里往外走。[3]

由此展开,较稳的判断并非“商汤已经解决了多模态推理”,事情还远没有到这个程度。更合适的说法是:它在尝试把视觉推理变成智能体循环里的原生部件。这和提升字幕识别、OCR 或一次性图片问答并非同一条线。它瞄准的是那些要处理混合材料、跨材料推理、最后还要产出可强制执行结果的工作负载。

Raccoon 让这次发布真正进入产品叙述

一旦 Raccoon 出场,这则发布就变得更值得看。商汤说,Raccoon 基于 V6.5 的多模态数据分析能力完成了全面升级,可以处理复杂多模态输入,完成深度融合分析,并输出专业级可视化结果。[1] 这已经并非一张 benchmark 图的延长线,而是一个明确的商业表面。

例子本身就很有操作感。商汤写到,Raccoon 可以处理复杂 Excel 文件,里面或许同时存在合并单元格缺失值嵌套表格内嵌图表外部图片,系统能够理清子表之间的逻辑关系,并生成完整分析报告。[1] 这几乎是整套材料里最重要的细节,因为它告诉读者:商汤并非只想把 V6.5 卖成一个“更聪明的多模态助手”,而是要把它卖成一套能穿过脏乱业务材料、最后给出结构化工作产物的系统。

垂直场景数字也在做同一件事。商汤写到,教育版 Raccoon 已进入 500+ 家机构、覆盖 10+ 个教育场景、服务 250,000+ 名师生,学习效率提升 15-30%,学业焦虑下降 40%,课堂参与度提升 2.1 倍,资源错配降低 30%,心理干预时效提升 50%。[1] 它同时还写到,整个 Raccoon 产品系列用户量已经超过 1000 万。[1] 这些数字同样属于公司口径,而并非第三方验收;但它们依旧重要,因为它们说明商汤希望这次发布被理解为工作流结果与部署表面,而并非模型神话。

榜单与财报把这条商业方向写得更完整

单靠一则发布稿,证据仍然不够。后续材料把这条线写得更扎实。

2025 年 12 月 31 日 的公司文章里,商汤写到 SenseNova V6.5 Pro 在 SuperCLUE 12 月中文多模态视觉语言测评里拿到 75.35 分,在中国模型中位列第一,并在视觉推理维度拿到国内最高分,同时在目标描述、文本识别、环境识别、逻辑推理、代码设计、自动驾驶场景等任务里处于国内领先位置。[2] 由于这篇榜单总结仍由商汤自己发布,因此适合把它当作公司自述的 benchmark 背景,而并非独立裁决。即便如此,它依旧解释了商汤为什么在数月后还不断回到 V6.5 这条线上:这条模型线的公开表现,足以支撑它继续讲产品故事。[2]

更关键的是 2026 年 3 月 25 日 的年度业绩发布。商汤写到,2025 年收入同比增长 33%50 亿元人民币以上,下半年 EBITDA 首次转正至 3.8 亿元,并计划在 2026 年 Q2 推出基于第二代 NEO 架构的新基础模型,以推动智能体 AI应用的大规模部署。[4] 同一份材料还写到,SenseCore 的运营算力规模已经达到 40,400 PFLOPS(FP16),并把公司业务明确表述为从基础设施到模型再到应用的闭环。[4]

放在一起看,V6.5 的位置就清楚了。商汤并非把一条多模态模型线放进真空里演示,而是在试图证明,多模态推理能够成为更大一条 B2B 与智能体应用业务的中段部件。当模型、智能体产品和财报语言都朝同一个方向收束时,这次发布就更像一次公司级商业转向里的关键一环,而并非一次暂时性的热闹。[1][3][4]

接下来该看什么

比起再多一张单点榜单图,后面的三个信号更值得追踪。

第一,商汤会不会继续把图文交织推理翻译成具体产品行为,而并非停在架构术语上。[1][3] 更强的证据会是更多公开案例,显示它如何在办公、金融、数据分析等任务里,把视觉材料与结构化业务对象放进同一条循环。

第二,公司会不会继续把效率与部署数字和能力声明放在一起发布。[1][4] V6.5 这次材料里,对吞吐、强化学习效率和性价比的披露已经相当明确。如果这种披露继续出现,产品叙述会更可信。

第三,新的 NEO 线会不会继续强化同一条 workplace-agent 逻辑,而并非重新退回一场抽象大赛。[3][4] 如果商汤继续把架构变化和智能体部署、B2B 工作流、可重复的应用表面绑在一起,V6.5 就会更像一个重要转折点,而并非短促高光。

SenseNova V6.5 的真正意义,在于它让人看见商汤正试图把多模态 AI 往上推一层。它关心的不只是“看得更准”或者“名次更高”,而是怎样让多模态推理足够便宜、足够结构化、也足够产品化,最终通过 Raccoon 之类的表面接成一条 workplace-agent 闭环。[1][2][3][4]

来源

  1. SenseTime,《SenseTime Launches the Enhanced SenseNova V6.5: Marking the Leap from AI as a "Tool" to a "Partner"》(2025 年 7 月 30 日;V6.5 发布、图文交织思维链、三倍性价比提升、Raccoon 升级、办公场景示例、垂直数据,以及本文题图来源页)。
  2. SenseTime,《SenseTime SenseNova V6.5 Multimodal Large Model Ranked No.1 in China in 2025》(2025 年 12 月 31 日;公司对 SuperCLUE 榜单背景、75.35 总分与任务项表现的总结)。
  3. SenseTime,《Evolving From "Data Fusion" to "Native Architecture", SenseTime Releases NEO Architecture Redefining the Efficiency Boundaries of Multimodal Models》(2025 年 12 月 1 日;编码器级早融合、原生多模态架构,以及下游部署场景)。
  4. SenseTime,《SenseTime Group Reports Record High Revenue of Over RMB 5 billion in 2025; Second Half EBITDA Turns Positive》(2026 年 3 月 25 日;收入、EBITDA、第二代 NEO 路线、智能体部署表述,以及 40,400 PFLOPS 的 SenseCore 运营规模)。