截至 2026-03-30 UTC,观看 Qwen 在 2025 年 9 月 22 日 发布、时长 6 分 35 秒Qwen3-Omni 发布视频,最值得先抓住的一点,不在于它覆盖了多少模态,而在于它怎样安排这些模态。[1] 这支片子当然有典型的发布视频气质,节奏很快,案例很多,想让人迅速形成“什么都能做”的印象。可把视频和配套书面材料一起放在桌面上看,更清楚的一条线会浮出来:Qwen3-Omni 被写成一个能同时处理 文本、图片、音频、视频,并以 文本和自然语音 实时回话的系统,背后还有 Thinker-Talker 架构、多语言覆盖,以及把推理与语音生成收在同一个闭环里的设计目标。[2][3][4]

关键处在于,视频几乎不把时间花在榜单镜头上。它反复展示的是同一种交互形态:用户开口、指向、展示、播放,模型承接这些不同信号,再像处理同一段对话那样给出回应。[1] GitHub README 与 Hugging Face 模型卡也沿着同一条线写,把实时音视频交互、自然轮次切换、多语言输入输出,以及 speech recognition、speech translation、audio-visual dialogue、music analysis、video description、image math 这些 cookbook 场景并排摆出来。[2][3]

技术报告把这层产品叙述又往系统内部推了一步。报告写明,Qwen3-Omni 支持 119 种文本语言19 种语音输入语言10 种语音输出语言,采用 Thinker-Talker MoE 架构,并通过多码本语音方案追求更低的首包延迟,在冷启动场景下给出理论上的 234 毫秒 首包时间。[4] 放在一起读,视频的真正主张就比“阿里有一个全模态模型”更具体,也更有野心了:阿里想把所有模态都压进同一个轮次接口里。 你开口、给它看图、让它看视频、放一段歌、拿文档给它看,这些动作都不该被用户感觉成不同系统之间的切换。[2][3][4]

配图说明:封面使用 Wikimedia Commons 上阿里巴巴西溪园区四期的实景照片。这里选用真实园区图像,更贴合本文所写的制度化界面建设,也让“多种模态如何被收进同一段对话”这层判断有了现实空间上的对应。[5]

大约在 0:25,开场的点菜请求把翻译写成了一个完整社交轮次

视频里第一段清楚的示范,很快就把重点摆出来了。用户说,自己带法国朋友去意大利餐厅吃饭,希望模型推荐一道意面,并用法语介绍给朋友听。[1] 画面把这一段标成 cross-lingual,但真正值得注意的,不只是牵涉了多种语言,而是推荐、理解语境与语音输出被收在同一个回复轮次里,没有被拆成机械的转写、翻译、再生成几个步骤。

Qwen 的书面材料和这一段完全贴合。README 与模型卡都在强调,Qwen3-Omni 并非一个只会识别语音、附带一点翻译能力的模型,它被写成可以接收混合模态输入,并以流式文本或自然语音形式给出回答的系统,而 speech translation 与 audio-visual dialogue 都是被直接列进 cookbook 的核心使用场景。[2][3] 也就是说,这支视频的开场并非在堆语言覆盖率,而是在把多语言交互处理成一种日常而完整的社交回合。

放在产品层面上看,这个开场很有针对性。阿里并不只是想说明模型能做语言转换,它更想让用户直接感到,语言切换本身就应该发生在同一段对话里,不需要先跨过一个清晰可见的子系统边界。对 AI-China 来说,这已经并非单纯的模型能力陈述,而是界面定义权的争夺。

大约在 1:24 和 1:30,视频把语音理解推进成带场景锚点的音视频问答

第二段重要示范,开始让模型面对的不只是声音,而是带视觉线索的场景。视频里先问某位说话者在谈什么、某个历史地点的上下文是什么,随后又切到一段日式餐食画面,让模型对视频中的动作和场景进行回答。[1] 这一步的意义,在于模型不再只是对一串语音作答,而是在把语言、画面与时间顺序同时纳入处理。

Qwen 的 GitHub 仓库没有把这种能力写成附带模块。README 直接把 video description、audio-visual question、audio-visual dialogue 这些场景列成核心 cookbook 类别。[2] Hugging Face 模型卡也是同样的排布,这说明产品在组织方式上就已经把多模态交互当成一个统一系统来写,而并非一组彼此分散的工具箱。[3]

顺着这个结构回看视频,历史地点和餐食片段之所以重要,正在于它们展示了 reference binding。模型需要把听见的话、看见的对象、动作发生的时序关系,一并收进同一个回答里。技术报告对文本、图片、音频、视频之间统一感知与生成的描述,正好给这层画面提供了底层解释。[4] 这支短片卖的并非“支持多输入”,它卖的是“带锚点的对话”。

大约在 2:31 到 3:35,多人视频段落把价值从转写推到记忆与说话者归属

视频中段最有分量的一段,出现在 2:31 左右的 multi-person video。几位说话者轮流自我介绍,提到自己的情绪、宠物与私人细节。[1] 到 3:35 左右,模型被继续追问,像是谁说了自己的宠物、谁分手的原因是什么,它都要从前面的多人片段中把正确信息重新取出来。[1]

这一段比普通语音转写更能说明问题。单纯的 speech recognition 只能把音频转成字,speaker diarization 可以再往前走一步,把人分开。可一个真正有界面价值的助手,还要能把说话者身份、细节记忆与后续追问收在一起,在新的轮次里不丢失“到底是谁说了什么”。Qwen 的 README、模型卡和技术报告反复强调 audio-visual dialogue、多模态推理与自然轮次切换,这一段正是这些说法落地的地方。[2][3][4]

放进 AI-China 的现实使用场景里,这就不再像一支炫技短片,而更像会议纪要、客服复盘、视频记录、现场问答这类工作流的界面雏形。它要争夺的价值,也不止于“看得懂音视频”,而在于模型能不能在第一轮之后继续留在同一条对话线上,顺着上下文回答后来出现的问题。

大约在 3:58、5:00 与 5:53,会议、音乐和文档被压进了同一种交互语法

多人片段之后,视频又很快切到别的场景。大约 3:58,镜头变成一个讨论实时协作功能与项目延期风险的会议式对话;到 5:00 左右,视频进入 music analysis,让模型概括歌曲的情绪与歌词主题;再到 5:53,它又被要求看图并完成一个积分计算。[1]

这些片段并非随手拼接的能力卡片。它们和 README、模型卡里的 cookbook 分类是一一对应的:speech 与 dialogue、music analysis、audio caption、video description、image math,全都在官方说明里被列成明确场景。[2][3] 技术报告再进一步,把这背后的系统意图说清楚:Qwen3-Omni 被设计成一个跨文本、图像、音频、视频都保持强性能的统一模型,而并非为了追求“全”而接受明显退化的折中方案。[4]

所以,这几段真正推进的是同一种用户语法。会议也好,歌曲也好,手写公式也好,视频都用同样的方式来表现:给模型一个对象,问一个问题,迅速得到回答,再接着往下走。到了这里,视频最重要的单位已经并非 benchmark,也并非任务类型,而是 轮次本身

大约在 6:07,收尾那句车窗请求,把终点方向提前露出来了

视频最后一段可辨认的请求很短,却关键。用户说,天气太冷了,请帮我把车窗关上,再放一首民谣。[1] 片子随即结束,可这句收尾其实已经把方向亮出来了。只要文本、语音、视频、场景理解都被装进同一个对话接口里,轻量动作调用就会自然成为下一步。

Qwen 的书面材料没有把这层意思说得夸张,但确实给它留了位置。README 与模型卡都提到 flexible control、通过 system prompt 进行细粒度适配,以及 cookbook 里带有 agent 色彩的 audio function call 用例。[2][3] 技术报告则给出更宽的框架:Qwen3-Omni 试图统一感知与生成,让模型能够围绕任意模态输入进行推理,并以实时方式作答。[4]

也正因为这样,这支发布视频现在仍然值得反复看。它最强的讯号,不只是 Qwen3-Omni 能看、能听、能读、能说;更强的一层,是阿里想让这些能力都被用户感成同一段持续进行的对话。若这套 framing 真能成立,AI-China 的竞争边界就会从孤立的模态演示,转向 谁能占住用户意图、多模态上下文与即时回应之间的轮次层

来源

  1. Qwen,《Qwen3-Omni: Natively Omni-Modal Foundation Models!》,官方 YouTube 视频,发布于 2025 年 9 月 22 日。
  2. Qwen Team,《Qwen3-Omni》GitHub 仓库 README(概览、多语言覆盖、Thinker-Talker 架构、cookbook 分类与部署说明)。
  3. Qwen Team,《Qwen3-Omni-30B-A3B-Instruct》Hugging Face 模型卡(功能摘要、cookbook 结构、多语言支持与实时交互定位)。
  4. Qwen Team,《Qwen3-Omni Technical Report》arXiv 条目与摘要页(benchmark 框架、Thinker-Talker MoE 设计、语言数量与首包延迟)。
  5. Wikimedia Commons,《File:Phase 4 of Alibaba Xixi Park 20200913.jpg》。