把时间锚定在 2026-04-18 UTC,理解 SenseTime 在 2026 年 1 月 30 日开源 SenseNova-MARS,更合适的入口,不在那组压过 Gemini 3 Pro 或 GPT-5.2 的榜单数字上,真正值得看的是它把一整套多模态搜索推理封装公开摆了出来:开放权重、训练与推理代码、新的 HR-MMSearch 基准,以及围绕文本搜索图像搜索图像裁剪搭起的工具链。[1][2][3][4] 放在 ai-china 这条线里,这比一次单独的高分更重要,因为它把研究主张推进成了一条可以被外部开发者检查、复现、质疑的公开赛道。

这里的差别很关键。中国模型周期已经堆出许多对话发布、编程助手与多模态演示。SenseNova-MARS 指向的是另一块更窄、也更有结构的表面:模型先看图,再决定哪一块细节值得放大,接着把那块细节拿去搜索,最后把搜回来的线索重新接进答案里。[1][2][3] 分数表只是门面。更有重量的部分,在于 SenseTime 没有把整条工作流锁在内部系统里,而是把评测与基础设施假设一并公开。

图片说明:题图采用 2011 年美国国会图书馆卡片目录的真实照片。它适合本文,因为 SenseNova-MARS 讨论的核心并非泛化聊天流畅度,而是一种搜索纪律:先抓住线索,再把线索送入合适的目录,最后把视觉碎片与外部知识接成结论。[6]

这组 benchmark 分数,真正说明了什么

最醒目的数字并不复杂。在仓库与论文里,SenseNova-MARS-32BMMSearch 上给到 74.3,在 HR-MMSearch 上给到 54.4,高过作者比较表里的若干闭源模型,包括 Gemini-3-ProGPT-5.2。[2][3] 这组结果有意义,前提是把评测边界放回原位。

MMSearch 并非一个泛称意义上的“视觉 benchmark”。它的维护者把它定义成一个覆盖 14 个子领域、总计 300 个样本的多模态搜索基准,评分由四个环节共同构成:requeryreranksummarization,以及完整的 end-to-end 搜索过程。[5] 也就是说,它从一开始就在测试模型能否像一台多模态搜索引擎那样工作,而不只是凭已有记忆作答。HR-MMSearch 又把问题继续收紧。SenseNova 的数据卡把它定义成一个包含 305 个高分辨率样本的基准,重点考查智能体式推理搜索能力,要求模型把图像细节与外部知识接起来,跨多个领域完成答案构造。[4]

因此,这组领先更适合被读作一项特定任务设定下的系统结果,并不展开成一份关于“谁拥有最强通用多模态智能”的总榜。SenseTime 自己的论文已经把边界写得很清楚:模型在推理环节里动态接入图像搜索、文本搜索与图像裁剪工具。[2][3] 这次胜出之所以成立,就在于 benchmark 本身正奖励这种行为。若把工具链拿掉,再把结果翻译成“SenseTime 已经拥有最强通用多模态模型”,题目与答案之间就已经错位了。

真正更重要的部分,在仓库里

这次发布最值得看的东西,其实落在 GitHub README,而不落在宣传句法里。仓库给出的并不只是论文链接与权重下载。它同时公开了 checkpoint 的发布时间、SenseNova-MARS-DataHR-MMSearch 的数据入口、一个预构建 Docker 镜像,以及一整套具体的基础设施配方。[2] 这一层信息的密度,决定了这次发布的分量。

为了完整进行 RL 训练,仓库要求 3 个独立节点,每个节点都配 8 张 NVIDIA H100 80GB GPU:一个负责训练,一个负责基础设施服务,一个负责 judge 模型。[2] 只做评测,也仍然要求两节点与独立的服务栈。README 还把外围服务写得很具体:网页搜索服务、本地 Wikipedia 检索库、摘要模型,以及 judge 服务器。[2] 这条部署边界,本身就是整套发布里最有价值的事实之一。

原因很简单。它告诉读者,SenseNova-MARS 并非一份“下载权重即可复现全部能力”的简化叙事。它更接近一套智能体系统设计,其中包含明确的操作依赖。SenseTime 实际上是在说,如果目标是这类多模态搜索行为,单靠一个强一些的 VLM checkpoint 还不够,外面还需要工具编排、检索、路由,以及对多步行为进行评测的方法。[2][3]

顺着这个角度看,开源发布本身比那张分数表更重要。很多公司都会发 benchmark 表,真正把分数背后的系统假设一并公开出来的,就少得多。

更强的信号,在于它把新的开放 benchmark 赛道立了起来

这次发布的力度还来自另一点:SenseTime 没有止步于模型权重,而是把一套更尖锐的 benchmark 问题一起推了出来。

HR-MMSearch 的数据卡把这个基准写成围绕高分辨率图像知识密集型问题搜索驱动答案展开的一项测试,题目单靠图像本身并不能闭合,模型必须把视觉线索带到外部知识空间里,再完成推理。[4] 论文又把目标说得更具体:面对复杂视觉任务,模型要把推理与搜索、裁剪这类外部工具交织起来。[3] 这比 captioning、OCR 或一次性视觉问答都更苛刻,因为它把能力中心推向了“如何采证”。

在这个层面上,ai-china 里的信号会更清楚。过去一年,SenseTime 一直在试图证明自己并不只剩下一个基础模型品牌。SenseNova-MARS 把这种努力继续推进到开源研究封装层面。它没有要求外部世界去相信一句模糊的“agentic vision”口号,而是把数据集、benchmark 与实现路径一起摆出来,使这套主张有了可验证的轮廓。[1][2][4]

这里还带着一层竞争含义。若中国实验室继续只发布模型权重,却不公开围绕搜索与评测的外围框架,它们的公开版本仍然会显得比自己真正想对标的闭源系统更薄。SenseNova-MARS 给出的一种回答是:公开的不只是一份 checkpoint,也包括任务定义工具契约

接下来该看什么

现在更值得盯住的,并非重复那组最高分,而是三条后续线索。

第一,看外部团队会不会真的把 HR-MMSearch 与公开代码拿来复现、验证,或者推翻 SenseTime 的结果。[2][3][4] 一个 benchmark 真正站稳,得等外部研究者把它当作共享地面,而并非厂商戏台。

第二,看 SenseTime 或其他同行能否把同样的搜索与裁剪工作流做得更轻,降低基础设施重量。[2] 现在这套仓库已经把边界写得很透明,也把成本写得很透明。

第三,看多模态搜索推理会不会继续向产品层延伸,而并非停留在研究样机状态。[1][3] 如果后续中国 AI 发布开始持续暴露 crop-search-verify 这类循环,并把它接进企业或消费工作流,那么 SenseNova-MARS 的位置就会从一篇 benchmark 论文,慢慢转成一张更早公开的新地图。

SenseNova-MARS 值得注意,就在于它把一种特定能力说清楚了。它真正公开的,不只是“SenseTime 模型更强”,而是一条多模态搜索推理的开源赛道:工具写清楚,benchmark 写清楚,基础设施成本也写清楚。[1][2][3][4][5]

来源

  1. SenseTime, "SenseTime Open Sources SenseNova-MARS A Breakthrough in Multimodal Search and Reasoning"(2026 年 1 月 30 日;官方发布说明,包含 benchmark 叙事、工具调用示例与发布链接)。
  2. OpenSenseNova, "SenseNova-MARS" GitHub repository README(发布时间线、checkpoint、benchmark 表、Docker 镜像、硬件需求与基础设施配置)。
  3. Chng et al., "SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning"(arXiv:2512.24330;2025 年 12 月 30 日提交,2026 年 1 月 25 日修订)。
  4. sensenova, "HR-MMSearch" dataset card on Hugging Face(305 个样本的 benchmark 描述、字段说明与领域覆盖)。
  5. CaraJ7, "MMSearch" project README(300 个样本、14 个子领域,以及由四部分组成的加权评测设计)。
  6. Wikimedia Commons, "File:2011 Library of Congress USA 5466788868 card catalog.jpg"(2011 年 Ted Eytan 摄影作品;本文题图来源页)。