截至 2026-03-27 UTC,AI-China 最清楚的一条生产级应用表面,已经并非泛化助手 App,而是智能座舱。
原因在工作负载本身。汽车把语音交互放进一个双手占用、时延敏感、不断重复的环境里,模型做的事也不再只是回答一道提示词。它要处理打断,要理解舱内情境,要调用工具,要把任务在不同设备之间接续下去,还要把交互节奏控制在驾驶者愿意继续使用的范围内。[1][2][3]
这也是吉利与阶跃星辰组合值得追踪的地方。吉利公开的车辆战略已经把 AI 写成原生底座,系统级 OS 面向车辆、手机、平板、穿戴设备和智能家居协同工作。[1] 阶跃星辰公开的语音栈也明确朝实时语音交互展开,并非把文本对话外包上一层语音壳,文档里直接给出基于 WebSocket 的实时接入、端到端语音交互、原生 Tool Call、网络搜索、多语言处理与情感表达。[3][4] 两组材料放在一起看,座舱已经更像一条付费分发通道,而并非一个好看的演示场景。
用例本身:把语音从功能点变成操作表面
吉利在 CES 2025 的公告很有代表性,因为它把目标架构写得很直白。公司表示,自己的“全域 AI 智能汽车”系统建立在 AI 原生 OS 之上,能够在车辆与周边个人设备之间协调感知数据和服务分发。[1] 这和过去那种“一次收一个命令”的车机逻辑已经并非同一件事。
之后发布的吉利银河 M9 页面,把这种转向写得更具体。M9 的定位并非“带一块屏幕的 SUV”,而是把下一代 AI 智能座舱、AI 数字底盘与辅助驾驶系统一起纳入核心产品结构。[2] 放在这个层面上,智能座舱已经并非一个可以慢半拍更新的软件装饰层,而是整车架构的一部分。
对 AI 开发者来说,这个差别很重要,因为车内工作负载有很强的黏性。导航、空调、音乐、通话、儿童座椅问题、补能停靠、疲劳提醒、行程规划,都会产生短而密的反复交互。模型只要在这些交互里持续站住,就拿到了一种比榜单 headline 更值钱的东西:日常习惯。
为什么阶跃星辰这条语音栈更适合座舱,而不只是聊天通道
阶跃星辰现在公开出来的文档,更像一套面向实时交互设计的语音栈,而并非把文字补全接口再包一层语音。它的 realtime 接口以 WebSocket 长连接为中心,而并非一次一断的 HTTP 调用,这正是移动中的车辆做低摩擦轮换对话所需要的基础形态。[3]
模型层也一样重要。阶跃星辰把 step-audio-2 描述成面向自然交互的端到端音频模型,支持普通话、英语、日语、情感表达、音色复刻、原生 Tool Call 与网络搜索。[3] 开源的 Step-Audio 仓库则从工程侧把同一件事写得更清楚:一个统一的理解与生成框架,覆盖多语言与方言、可管理语音风格,以及持续交互所需的实时推理流水线。[4]
这会把车载助手的考核方式彻底抬高。系统不再只靠“给定一个干净提示词之后回答得好不好”来评判。用户会在一句话中途换题,会把命令和闲聊揉在一起,会当场要搜索结果,也会要求系统在狭小共处空间里用恰当的语气回应。座舱真正检验的是整条语音控制链能否稳稳承接这些瞬时变化。
吉利与阶跃星辰联合落地,真正释放了什么信号
最值得看的公开商业化信号,是 2025 年 WAIC 联合展示公告。BusinessWire 的稿件写明,吉利汽车集团与阶跃星辰联合展示了面向吉利银河 M9 的类人车载 AI Agent,并进一步抛出了双 AI Agent 与 Agent OS 的交互框架。[5]
这条公告还不能证明大规模留存已经坐实,但它已经证明,两家公司把座舱视为实时多模态模型从实验室叙事进入量产产品逻辑的入口。
顺着这些资料往下读,可以得到一个清晰推断:智能座舱正在形成三层栈结构:
- 实时轮换对话层,负责唤醒、打断、澄清与续接。[3]
- 工具与服务编排层,负责导航、搜索、媒体、设备接续与车辆功能调用。[1][3]
- 语气与信任管理层,保证助手在家庭或共享座舱环境里可用,而并非只在榜单意义上“答对”。[3][4]
这个三层视角解释了座舱为什么具有战略吸引力。它同时要求模型能力、编排纪律与硬件分发。能把三件事绑在一起的 AI 表面并不多。
这为什么是分发,而并非界面抛光
消费级 AI App 可以靠买流量放大触达,座舱则必须嵌进硬件销售、操作系统和驾驶习惯。
这种收入逻辑起步慢,却更难被挤掉。助手一旦和整车生命周期、更新机制、账号体系、导航记忆以及跨设备接续绑在一起,模型提供方争夺的就不只是一次会话,而是座舱里的默认交互层。
这正是吉利材料里“跨端协同”表述与阶跃星辰材料里“实时工具能力”表述真正重要的地方。[1][3] 价值不在“车里也能说话”这层新鲜感,而在汽车是极少数能让多模态 AI 变成常驻控制表面、拥有重复曝光并直接附着在产品上的环境。
边界、证伪条件与接下来要看什么
眼下公开证据仍以厂商材料为主:官方战略页、产品文档、发布稿件。它足够说明方向,却还不足以判定谁已经稳赢。
如果接下来一个产品周期里,三件事同时出现,这篇文章的判断就会明显变弱:
- 驾驶者在核心任务上继续回到触控或手机映射,
- 实时语音在舱内噪声与打断条件下持续失稳,
- OEM 上车后的系统仍停留在展厅演示,而没有进入高频日常功能。
接下来要看三件事:
- 吉利会不会把这套 AI 座舱行为从单一旗舰车型继续铺到更广的产品线。[2][5]
- 阶跃星辰公开语音栈接下来强化的是并非工具可靠性与实时表现,而不只是声音风格范围。[3][4]
- 更多中国 OEM 会不会把座舱当成模型路由表面,而并非一个换皮语音入口。[1][5]
来源
- Geely Auto, "Geely Unveiled Auto Industry's First-Ever 'Full-Domain AI for Smart Vehicles' Technology System" (January 2025).
- Geely Auto, "Geely Auto initiated the 'Five by Five' Globalization Strategy and unveiled its new AI Powered, Six-Seater Flagship SUV" (May 2025).
- StepFun, "Realtime" and audio model documentation (WebSocket realtime access,
step-audio-2, tool calling, and web search). - stepfun-ai, "Step-Audio" GitHub repository (open-source speech-interaction framework, multilingual handling, controllable emotion/dialect, realtime inference pipeline).
- BusinessWire, "Geely Auto Group Teams Up with StepFun for a Joint Showcase at the 2025 World Artificial Intelligence Conference" (July 31, 2025).