AI-China 评测与基准笔记：SenseNova-MARS 正在把多模态搜索推理做成一条开源赛道

这张历史性的卡片目录照片适合本文，因为 SenseNova-MARS 说到底是一则搜索与检索的故事：先把视觉线索缩到足够清楚，再把它接回外部知识，答案才会成形。

把时间锚定在 2026-04-18 UTC，理解 SenseTime 在 2026 年 1 月 30 日开源 SenseNova-MARS，更合适的入口，不在那组压过 Gemini 3 Pro 或 GPT-5.2 的榜单数字上，真正值得看的是它把一整套多模态搜索推理封装公开摆了出来：开放权重、训练与推理代码、新的 HR-MMSearch 基准，以及围绕文本搜索、图像搜索、图像裁剪搭起的工具链。[1][2][3][4] 放在 ai-china 这条线里，这比一次单独的高分更重要，因为它把研究主张推进成了一条可以被外部开发者检查、复现、质疑的公开赛道。

这里的差别很关键。中国模型周期已经堆出许多对话发布、编程助手与多模态演示。SenseNova-MARS 指向的是另一块更窄、也更有结构的表面：模型先看图，再决定哪一块细节值得放大，接着把那块细节拿去搜索，最后把搜回来的线索重新接进答案里。[1][2][3] 分数表只是门面。更有重量的部分，在于 SenseTime 没有把整条工作流锁在内部系统里，而是把评测与基础设施假设一并公开。

图片说明：题图采用 2011 年美国国会图书馆卡片目录的真实照片。它适合本文，因为 SenseNova-MARS 讨论的核心并非泛化聊天流畅度，而是一种搜索纪律：先抓住线索，再把线索送入合适的目录，最后把视觉碎片与外部知识接成结论。[6]

这组 benchmark 分数，真正说明了什么

最醒目的数字并不复杂。在仓库与论文里，SenseNova-MARS-32B 在 MMSearch 上给到 74.3，在 HR-MMSearch 上给到 54.4，高过作者比较表里的若干闭源模型，包括 Gemini-3-Pro 与 GPT-5.2。[2][3] 这组结果有意义，前提是把评测边界放回原位。

MMSearch 并非一个泛称意义上的“视觉 benchmark”。它的维护者把它定义成一个覆盖 14 个子领域、总计 300 个样本的多模态搜索基准，评分由四个环节共同构成：requery、rerank、summarization，以及完整的 end-to-end 搜索过程。[5] 也就是说，它从一开始就在测试模型能否像一台多模态搜索引擎那样工作，而不只是凭已有记忆作答。HR-MMSearch 又把问题继续收紧。SenseNova 的数据卡把它定义成一个包含 305 个高分辨率样本的基准，重点考查智能体式推理与搜索能力，要求模型把图像细节与外部知识接起来，跨多个领域完成答案构造。[4]

因此，这组领先更适合被读作一项特定任务设定下的系统结果，并不展开成一份关于“谁拥有最强通用多模态智能”的总榜。SenseTime 自己的论文已经把边界写得很清楚：模型在推理环节里动态接入图像搜索、文本搜索与图像裁剪工具。[2][3] 这次胜出之所以成立，就在于 benchmark 本身正奖励这种行为。若把工具链拿掉，再把结果翻译成“SenseTime 已经拥有最强通用多模态模型”，题目与答案之间就已经错位了。

真正更重要的部分，在仓库里

这次发布最值得看的东西，其实落在 GitHub README，而不落在宣传句法里。仓库给出的并不只是论文链接与权重下载。它同时公开了 checkpoint 的发布时间、SenseNova-MARS-Data 与 HR-MMSearch 的数据入口、一个预构建 Docker 镜像，以及一整套具体的基础设施配方。[2] 这一层信息的密度，决定了这次发布的分量。

为了完整进行 RL 训练，仓库要求 3 个独立节点，每个节点都配 8 张 NVIDIA H100 80GB GPU：一个负责训练，一个负责基础设施服务，一个负责 judge 模型。[2] 只做评测，也仍然要求两节点与独立的服务栈。README 还把外围服务写得很具体：网页搜索服务、本地 Wikipedia 检索库、摘要模型，以及 judge 服务器。[2] 这条部署边界，本身就是整套发布里最有价值的事实之一。

原因很简单。它告诉读者，SenseNova-MARS 并非一份“下载权重即可复现全部能力”的简化叙事。它更接近一套智能体系统设计，其中包含明确的操作依赖。SenseTime 实际上是在说，如果目标是这类多模态搜索行为，单靠一个强一些的 VLM checkpoint 还不够，外面还需要工具编排、检索、路由，以及对多步行为进行评测的方法。[2][3]

顺着这个角度看，开源发布本身比那张分数表更重要。很多公司都会发 benchmark 表，真正把分数背后的系统假设一并公开出来的，就少得多。

更强的信号，在于它把新的开放 benchmark 赛道立了起来

这次发布的力度还来自另一点：SenseTime 没有止步于模型权重，而是把一套更尖锐的 benchmark 问题一起推了出来。

HR-MMSearch 的数据卡把这个基准写成围绕高分辨率图像、知识密集型问题与搜索驱动答案展开的一项测试，题目单靠图像本身并不能闭合，模型必须把视觉线索带到外部知识空间里，再完成推理。[4] 论文又把目标说得更具体：面对复杂视觉任务，模型要把推理与搜索、裁剪这类外部工具交织起来。[3] 这比 captioning、OCR 或一次性视觉问答都更苛刻，因为它把能力中心推向了“如何采证”。

在这个层面上，ai-china 里的信号会更清楚。过去一年，SenseTime 一直在试图证明自己并不只剩下一个基础模型品牌。SenseNova-MARS 把这种努力继续推进到开源研究封装层面。它没有要求外部世界去相信一句模糊的“agentic vision”口号，而是把数据集、benchmark 与实现路径一起摆出来，使这套主张有了可验证的轮廓。[1][2][4]

这里还带着一层竞争含义。若中国实验室继续只发布模型权重，却不公开围绕搜索与评测的外围框架，它们的公开版本仍然会显得比自己真正想对标的闭源系统更薄。SenseNova-MARS 给出的一种回答是：公开的不只是一份 checkpoint，也包括任务定义与工具契约。

接下来该看什么

现在更值得盯住的，并非重复那组最高分，而是三条后续线索。

第一，看外部团队会不会真的把 HR-MMSearch 与公开代码拿来复现、验证，或者推翻 SenseTime 的结果。[2][3][4] 一个 benchmark 真正站稳，得等外部研究者把它当作共享地面，而并非厂商戏台。

第二，看 SenseTime 或其他同行能否把同样的搜索与裁剪工作流做得更轻，降低基础设施重量。[2] 现在这套仓库已经把边界写得很透明，也把成本写得很透明。

第三，看多模态搜索推理会不会继续向产品层延伸，而并非停留在研究样机状态。[1][3] 如果后续中国 AI 发布开始持续暴露 crop-search-verify 这类循环，并把它接进企业或消费工作流，那么 SenseNova-MARS 的位置就会从一篇 benchmark 论文，慢慢转成一张更早公开的新地图。

SenseNova-MARS 值得注意，就在于它把一种特定能力说清楚了。它真正公开的，不只是“SenseTime 模型更强”，而是一条多模态搜索推理的开源赛道：工具写清楚，benchmark 写清楚，基础设施成本也写清楚。[1][2][3][4][5]

cronfeed.work

AI-China 评测与基准笔记：SenseNova-MARS 正在把多模态搜索推理做成一条开源赛道

这组 benchmark 分数，真正说明了什么

真正更重要的部分，在仓库里

更强的信号，在于它把新的开放 benchmark 赛道立了起来

接下来该看什么

来源

Recommended In ai china