截至 2026-06-09 UTC,阿里巴巴 Model Studio CLI 在 AI-China 语境里释放出的有趣信号,并非又一个中国云平台增加了命令行包装层。更值得看的信号在分发:阿里巴巴正在尝试让 Qwen 时代的 Agent 减少对单一聊天界面的依赖,把文本、图像、视频、音频、搜索、记忆、应用调用与模型选择放进一套终端 Agent 可以共用的工具箱里。[1][2]
这让这次发布更像一个实际用例。能够编辑文件的编码 Agent 已经有用;能够在同一个终端里调用模型平台的媒体、检索与工作流原语的编码 Agent,则开始接近一张操作桌。阿里巴巴 6 月 8 日的发布说明称,Model Studio 官方 CLI 让 AI Agent 可以访问覆盖文本、图像、视频和音频的 150 多个多模态模型,可与 Claude Code、OpenCode、Cursor、OpenClaw、Cline、Qoder、Qwen Code 等工具配合使用,配置完成后只需要一条终端命令和一个 Model Studio API key。[1] GitHub 仓库把同一件事说得更直接:它面向 Agent 框架,把 Model Studio 能力暴露为结构化工具调用。[2]
这套表述重要,因为中国模型竞争已经十分拥挤。Qwen、Kimi、GLM、DeepSeek、ERNIE、Hunyuan、MiniMax 以及其他路线都能产出亮眼的发布说明。难点在于,如何让这些模型进入反复发生的工作流,同时不让每个团队重复编写同一层胶水代码。Model Studio CLI 是阿里巴巴对这个胶水问题的回答:它的定位落在访问层,让 Agent 在不离开开发者工作上下文的情况下触达平台能力,本身并不承担新基础模型的角色。[1][2][3]
配图说明:封面是一张 2018 年拍摄的阿里巴巴集团雄安临时办公区实景照片,不是生成图、示意图、图表或概念化 AI 拼贴。本文讨论的是阿里巴巴的平台封装与面向企业的 Agent 分发,因此使用这张照片,而不是纯抽象的模型能力视觉。[7]
用例是工具访问,不是聊天
理解 Model Studio CLI,最清楚的入口是看它避开的断点。在常见 AI 编码流程里,Agent 可以检查仓库、提出补丁并运行命令。任务一旦需要生成图像、语音合成、视频生成、视觉理解、平台应用、知识库查询或模型比较,工作流经常裂成旁路标签页与手动上传。阿里巴巴要做的,是把这道缝合进 Agent 可以直接调用的命令界面。[1][2]
仓库列出了相关原语:通过 CosyVoice 与 FunAudio-ASR 进行语音合成和识别,通过 Qwen-VL 进行图像与视频理解,多模态 RAG 检索与跨会话记忆,调用 Model Studio 上发布的 Agent 与工作流应用,MCP 集成,网页搜索,模型推荐,免费额度查询,以及本地文件自动上传和临时存储。[2] 这里呈现的是一张以 Agent 可脚本化方式暴露出来的平台菜单,覆盖多项能力。
演示叙事也强化了这一点。Model Studio CLI 页面展示了一个一句话视频工作流:Qwen Code 理解请求,skill 把故事拆成镜头,CLI 并行派发视频生成,最后把结果拼接成可交付物。[2] 例子偏内容生产,但一般模式可以延展到营销之外:Agent 读取目标、拆分任务、选择工具、调用平台服务、检查输出,并返回成品。模型只是循环中的一个部分。
为什么 Qwen Code 是自然入口
Qwen Code 给阿里巴巴提供了这一循环的终端入口。它的文档将其描述为一个针对 Qwen3-Coder 优化的命令行 AI Agent,可通过 shell 脚本、npm 或 Homebrew 安装,并通过阿里云 Coding Plan 或 Model Studio API key 进行认证。[3][4] GitHub README 补上了生态细节:Qwen Code 开源、终端优先、兼容 IDE,并通过 OpenAI、Anthropic、Gemini 兼容 API 支持多个 provider,也支持 Alibaba Cloud Coding Plan、OpenRouter、Fireworks AI 或用户自己的 key。[4]
这种 provider 弹性很重要。阿里巴巴表达的意思不止是“使用我们的模型”。它还在说:“把这里作为 Agent shell,再把模型和工具路由进来。” Model Studio 的 Qwen Code 指南在配置参考里甚至列出 DeepSeek、Kimi、GLM 等非 Qwen 选项,同时仍强调 Qwen3-Coder 是优化路径。[3] 这是一种分发策略:保留终端习惯,把认证与模型路由显性化,并在免费或消费级访问不足以支撑场景时,让 Model Studio 成为付费与控制层。
认证历史里还有一层治理信号。Qwen Code 的 README 说,Qwen OAuth 免费层在 2026 年 4 月经过调整,并于 2026-04-15 停止,转而引导用户使用 Alibaba Cloud Coding Plan、OpenRouter、Fireworks AI,或自带 API key。[4] 对个人爱好者来说,这会形成摩擦。对企业用户来说,它显示阿里巴巴希望 Agent 使用进入可审计计费、工作区与 provider 配置,而不是停留在松散的消费登录权益里。
多模态 Agent 主张需要封装
Qwen3.7-Plus 提供了这套工具链背后的模型侧雄心。阿里巴巴 6 月 3 日的 Qwen3.7-Plus 说明,将其描述为一种多模态交互式混合 Agent,能够融合 GUI 与 CLI 操作,读取屏幕、操作图形界面、根据视觉参考写代码、导航移动应用,并处理带全模态输入的生产力工作流。[5] 同一篇文章也说明了为什么 CLI 层重要:Qwen3.7-Plus 可以通过 Model Studio 调用,配置为 OpenAI 兼容的 chat completions,借助 Model Studio 连接 OpenClaw,并通过 Qwen Code 使用。[5]
这里的含义很直接:多模态 Agent 模型仍然需要立足点。如果模型能理解截图,而运行时不能顺畅上传本地文件、调用视频生成器、访问检索库、检查工具定义或返回持久化成品,亮眼能力就会停留在演示层。Model Studio CLI 是一次尝试,目标是给模型一张工作台,并且让这张工作台靠近开发者已经在使用的文件、命令、凭据与产物。[1][2][5]
这种设置不会自动变得安全。终端原生工具箱会扩大影响半径。良好的部署需要决定哪些命令可以自动运行,哪些文件路径允许上传,哪些 Model Studio 应用可以被调用,API key 存放在哪里,允许哪些 MCP server,以及生成资产进入生产前如何审查。CLI 形态让这些问题变得可见,但它自身没有替部署方回答这些问题。[2][3][4]
竞争背景是长时程工作
围绕持续执行来定义 Agent 的公司不止阿里巴巴。Z.AI 的 GLM-5.1 文档称,该模型面向长时程任务设计,具备 200K 上下文长度、128K 最大输出 token、函数调用、MCP、上下文缓存,并宣称能够在单一任务上自主工作最长 8 小时。[6] 这是关于持久性、工具使用与工程交付的模型侧主张。
Model Studio CLI 指向互补的一层。它不主张某一个模型能工作得更久,而是追问平台如何给 Agent 提供更可靠的可调用工具。这是两种不同押注,成熟团队会同时需要二者。强长时程模型如果缺少有纪律的工具访问,会在任务中漂移;能力充足的工具台如果缺少能够规划、恢复和验证的模型,只会产出浅层自动化。由此展开,下一阶段 AI-China 采用问题已经不只是“哪一个中国模型得分最高”,还包括“哪一套技术栈能给 Agent 足够的模型质量、工具表面、权限控制与产物处理能力,使其可以承担重复工作?”
这也是 Model Studio CLI 发布值得跟踪的原因,即便首批示例带有明显的内容生产色彩。它把阿里巴巴云 AI 库存变成 Qwen Code 与相邻 Agent 可以编排的命令行能力。如果这种模式延续下去,产品边界会从独立聊天转向工作流封装:终端 Agent、模型控制层、多模态服务、检索与记忆、MCP,以及编码可重复流程的 skills。[1][2][3]
真正的反证来自运营采用。如果开发者主要把 Model Studio CLI 当作媒体生成的新奇包装,这次发布会停留在一个有用 wrapper 的层面。如果团队开始围绕它发布耐久的 skills、内部 runbooks 与带权限边界的 Agent 工作流,阿里巴巴得到的东西会更有价值:一条让 Qwen 与 Model Studio 进入日常工程和内容运营的实际路径,而且用户不用从头重建平台层。
来源
- Alibaba Cloud Community,《Alibaba Launches Qwen3.7-Plus, AI Swine Diagnosis Assistant and Model Studio CLI》(2026 年 6 月 8 日)。
- modelstudioai,《cli》GitHub 仓库 README(官方 Model Studio CLI、工具表面、示例、安装与认证)。
- Alibaba Cloud Model Studio,《Qwen Code》文档(安装、API key 设置、模型 provider 配置、命令与额度说明)。
- QwenLM,《qwen-code》GitHub 仓库 README(终端 Agent 定位、provider 选项、安装与 2026 年 4 月 OAuth/免费层调整)。
- Qwen Team,《Qwen3.7-Plus: Multimodal Agent Intelligence》(2026 年 6 月 3 日)。
- Z.AI Developer Document,《GLM-5.1》(模型概览、长时程任务主张、200K 上下文、工具能力与使用示例)。
- N509FZ,《Alibaba Group provisional office at Xiong'an (20180503164635).jpg》,Wikimedia Commons,拍摄于 2018 年 5 月 3 日(文章图片来源)。