截至 2026-04-07 UTC,看 ShanghaiEye 这支时长 2 分 23 秒 的 SenseNova V6 报道视频,最值得先收住的一点,是别把它听成又一条泛泛而谈的“中国多模态模型更强了”。[1] 片子里当然有这类发布会措辞:更强推理、更强交互、更长记忆,以及商汤推出的新一代模型线。[1][2] 真正更有意思的部分,在于镜头如何组织这些词。视频不断在类人机器人、手持手机、纸面文档与受访发言人之间切换,这个顺序把整场发布压成了一条落地叙事。顺着视频与周边书面材料一起看,我的判断是,商汤真正想卖出的,是同一个多模态核心在不同设备与交互表面之间循环工作的能力,而并非单一实验室胜利。[1][2][3][4]
这一层分寸放在 ai-china 里尤其重要,因为大量发布会解读仍然把模型进展写成排行榜事件。这支片子走的是更窄、也更商业化的一条路。它把 V6 处理成一层可部署的操作层,目标对象并非单一聊天界面,而是带着摄像头、麦克风、屏幕与执行端的混合输入环境:手机、服务界面、终端设备与机器人本体。[1] 4 月 18 日上海市政府英文站转引 China Daily 的那篇总结,把这层意思写得更直白:多模态长链思维、全局记忆、强化学习加持的推理,以及能分析 10 分钟 视频的 SenseNova V6 Omni,都被放进同一条产品线里。[2]
后来商汤自己的材料,又把这条线往后拉得更清楚。公司的 NEO 架构文章说,SenseNova 6.0 代表的是从旧式“数据融合”走向 native architecture 的变化,目标直指终端多模态响应、视频理解、机器人具身交互与跨模态端到端整合。[3] 到了 Wu Neng 具身智能平台的公告,这套话语又进一步延伸到机器人与智能设备,明确把世界模型、基础模型、长时记忆与现实交互接在一起。[4] 再到 2026 年 3 月 25 日 的年度业绩材料,商汤已经开始用第二代 NEO、agentic AI 大规模部署与 40,400 PetaFLOPS 的 SenseCore 运营规模来解释下一阶段。[5] 几组材料连起来以后,视频真正的中心就不再只是“我们出了新模型”,而是“我们希望这套交互底盘被铺到更多现实表面上去”。[2][3][4][5]
配图说明:题图使用的是上海徐汇一栋办公楼外立面上的商汤广告实拍照片,来源于上海市政府英文站转引的 China Daily 报道。这里适合用这张真实照片,因为视频最终讨论的是公开部署表面:模型如何从公司发布现场,进入城市可见性、手机设备与具身硬件。[2]
到 0:00 到 0:20 左右,开场大屏和机器人已经把重点放在“跨表面覆盖”上
最开始的几个镜头,并没有先给 benchmark 表格,而是先给 V6 / V6 Reasoner 的发布大屏,随后立刻切到现场的类人机器人。[1] 这是一种很明确的编排。商汤不希望观众只把“推理”和“记忆”理解成悬在半空中的模型属性,它希望这些词立刻连到一个可见终端上。连视频说明文字也沿着同一条路往下写:这套多模态融合模型让类人机器人不只“看见”和“听见”,还能够“思考”,进行环境识别与实时决策。[1]
上海市政府英文站那篇总结,则用更技术化的语言把同样的意思钉住:长链思维、全局记忆、强化学习,以及 V6 把多模态边界继续往前推。[2] 后来的 NEO 架构文章又把这一层补得更完整。它强调 native integration 的意义,不只是架构更漂亮,而是为了让视频理解、智能终端响应、3D 交互与机器人具身交互可以站在同一个底层之上。[3] 因而从开场二十秒开始,这支视频真正讲的就已经并非一个聊天框故事,而是一个覆盖不同表面的系统故事。
到 0:20 到 0:55 左右,手机演示把叙事从“前沿模型”推向“手持工作流”
接下来的关键段落,是手机被举起来,对着环境发问,甚至现场写诗的那一幕。[1] 这里真正重要的,并非诗本身,而是交互形态。摄像头、麦克风与屏幕在同一回路里同时工作。商汤借着这只手机,展示 V6 打算进入的并非孤立文本问答,而是一类混合输入的消费级或轻工作流场景:看、听、说、回忆上下文,在一条回路中连续发生。
这一点和书面发布材料咬得很紧。4 月 18 日的总结写到,新的 SenseNova V6 原生整合了图像、文本与视频处理,而 V6 Omni 被定位成轻量级全模态交互模型。[2] 顺着这层材料往下读,我的判断是,这才是商业叙事真正的重心。商汤并不只是要求买方相信“模型更聪明了”,它更想让人相信:当系统在多模态与多设备之间切换时,仍然能保持同一条交互逻辑,而不会散成几套拼接系统。
到 0:55 到 1:20 左右,纸面文档与手机切换真正演示的是记忆与辅导式交互
中段最值得停下来看的一组镜头,是从机器人切到纸面文档,再回到手机式辅助回应。[1] 这部分在画面里几乎被处理成一位“人类家教”的替代物,系统对着镜头前的内容做识别、解释或引导。这个演示表面上很日常,真正有效的地方却在于,它把“记忆”从一个抽象功能词,压成了一个交互承诺:系统要能够在具体任务里保留足够长的上下文,做比较、做指导、做连续回应,而并非只完成一次性输出。
这时候,后来的 Wu Neng 公告就成了很好的旁证。商汤在那篇公告里把平台描述成能够赋予机器人与智能设备高级感知、视觉导航、多模态交互与长时记忆,从而让现实世界里的交流更自然。[4] 这里我是在利用后续材料来解释前面的发布视频,并非说视频本身已经完整证明了全部技术细节,但方向是一致的。V6 这支片子已经把同样的行为契约缩微展示了一遍:先看见任务,再把上下文握在手里,然后在设备端给出可直接使用的回答。
到 1:20 到结尾,受访者与补贴计划把商业化逻辑彻底说明
结尾的受访画面,让整支片子的商业化目标彻底显形。[1] 发言人强调实时交互能力、扩展后的视频记忆,以及模型同时处理视频、图像与文本输入的能力。[1] 与此同时,视频说明和配套报道也提到 1 亿元人民币 的“扶摇计划”,目的是推动大模型能力向多行业落地。[1][2] 这两层内容本来就该连在一起看。商汤收尾并没有落在一个英雄式 benchmark 夸口上,它落在了模型公司迟早都要面对的那道题上:怎样把一套多模态底盘,变成可重复的行业采纳。
更大的公司材料,把这一层补成了完整闭环。NEO 架构文章强调,native multimodal integration 提升的是成本效率,也为智能终端和具身系统提供更扎实的基础。[3] 2026 年 3 月的业绩材料再把供给侧补上:第二代 NEO 将在 2026 年第二季度推出,agentic AI 被明确写成部署方向,而 SenseCore 已经处在大规模运营状态。[5] 说得更直白一点,这支视频是一条前端叙事,对应着一条后端 ambition。商汤希望 V6 被理解成那种能够穿过机器人、手机、服务工作流,并继续向更大 agentic 部署延伸的模型家族,而这条路径的关键并非一次演示,而是交互回路不断线。
这也是这支短片值得嵌入的原因。它表层上讲的是 SenseNova V6 在推理、交互与记忆上的增强。[1][2] 更深一层,它讲的是商汤不想只在一个 AI 助手层面竞争,它想在部署连续性这一层竞争:同一个多模态核心,进入更多界面,留在更多设备上,并把发布会语言接成现实世界里的工作流。[2][3][4][5]
来源
- ShanghaiEye魔都眼, "SenseTime launches latest AI multimodal large model 'SenseNova' in Shanghai," official YouTube news video, published April 11, 2025.
- Shanghai Municipal People's Government / China Daily, "SenseTime unveils large model SenseNova V6"(2025 年 4 月 18 日;多模态长链思维、全局记忆、强化学习、V6 Omni 与 10 分钟视频分析能力)。
- SenseTime, "Evolving From 'Data Fusion' to 'Native Architecture', SenseTime Releases NEO Architecture Redefining the Efficiency Boundaries of Multimodal Models"(2025 年 12 月 1 日;原生多模态整合、机器人具身交互、智能终端与视频理解)。
- SenseTime, "SenseTime Unveils 'Wu Neng' Embodied Intelligence Platform, Enabling AI to Evolve Through Real-World Interaction"(2025 年 7 月 29 日;KaiWu 世界模型、机器人与设备、长时记忆,以及多模态交互)。
- SenseTime, "SenseTime Group Reports Record High Revenue of Over RMB 5 billion in 2025; Second Half EBITDA Turns Positive"(2026 年 3 月 25 日;第二代 NEO 架构、agentic AI 部署方向,以及 40,400 PetaFLOPS 的 SenseCore 运营规模)。