ChatDev 2.0 这段演示有用,恰恰因为它一开始显得很普通:用户输入一个提示词,一个小型软件组织随即出现,智能体把任务拆成产品、设计、编码、测试和文档工作。[1][2] 这一层表面很容易被看成剧场。给几个智能体安上职衔,让它们互相发言,演示就像一间缩小的办公室。更严格的读法落在另一处:当这些角色停止卖萌,开始像工作流契约一样运转时,ChatDev 才真正变得有意思。

OpenBMB 的仓库把 ChatDev 2.0 描述为 “Dev All through LLM-powered Multi-Agent Collaboration”,同一份 README 也指向 MacNet,把它作为一种更通用的有向无环图方案,用于面向任务的智能体协作。[2] 这就是观看视频时最重要的背景。真正的 AI-China 信号,并不在于中国研究者又做了一个 coding assistant,而在于一个开放项目正在尝试把多智能体执行写清楚:拓扑、消息传递、产物和检查点都要露出来,而整件事不再只是漫长而隐藏的一串模型调用。

最初的 ChatDev 论文把系统设定为一家虚拟软件公司,其中的智能体经由从瀑布模型派生出来的 “chat chain” 通信。[3] 这个设计选择很有分量。单个编码模型可以生成漂亮片段,同时让操作者猜不透需求在哪里改变、测试在哪里被想象出来、某个文件为何存在。ChatDev 的价值主张,是把协作本身变成可检查的产物。观看这段视频时,问题也应放在这里:演示在哪些地方露出了契约,哪些地方仍然要求观众交出信任?

看交接,不只看角色身份

过度解读这段演示,最容易走向智能体名称。首席产品官、架构师、程序员、审查员、测试员或设计师这些称呼,会让系统显得比实际更像人。更好的标注方式,是盯住交接。每一个有用的角色都应把一个决策收窄:用户到底提出了什么、界面需要什么、代码该怎样写、哪项测试能抓住明显故障,以及文档如何解释最后的行为。

这也是 ChatDev 应被放进 AI-China 智能体讨论,而不只是通用 productivity tools 桶里的原因。这个项目承诺的内容不止是更快的初稿。它暴露出一个中国及中国相关 AI 技术栈正在编码、办公、机器人和 GUI 控制之间共同靠近的模式:模型只是其中一层;真正能交付的产品,是围绕模型编排出来的回路。在 ChatDev 里,这个回路格外清楚,因为输出物就是软件。智能体消息、生成文件、依赖选择和测试步骤,在运行之后都可以被检查。[2][3]

当视频展示一个任务穿过多个智能体时,重要问题不在每条消息是否听起来聪明,而在系统是否保留了足够状态,足以避免自相矛盾。若产品角色决定了一个功能,实施角色却悄悄改掉范围,所谓“团队”隐喻就已经失败。若审查角色抓住这种错位,协作才有了真实骨架。因此,ChatDev 最强的想法并非角色扮演,而是把工作阶段之间的界限显性写出。

拓扑成了产品要露出来的一面

把 ChatDev 2.0 放在 MacNet 旁边读,它会更有意思。MacNet 论文主张,多智能体协作应被表示为图,智能体按拓扑组织起来解决任务;论文评估还报告,这种方法可以协调超过一千个智能体,并且不规则拓扑在一些测试中优于规则拓扑。[4] 这些主张不适合被当作每个工程团队的部署担保。更合适的读法,是把它们看成一条研究方向:一旦协作被建模为拓扑,智能体网络的形状就成了可以设计、测试和修改的东西。

这会改变视频带来的观感。简单链条解释成本低,也会形成瓶颈。宽图更加灵活,也会丢失责任线索。设计问题随之变成:选择最小的智能体编排,让工作更容易验证。对于一个小应用,窄的产品、设计、代码、审查、测试链条已经足够。对于更大的任务,图里需要分出规划、UI、后端、QA、安全和文档等通道。问题也变得更像工程问题:哪些智能体边能减少含混,哪些边只是制造更多对话?

这正是中国相关开放 AI 工作值得持续观察的地方。OpenBMB 的项目页和仓库给了系统一个少见的公开表面:安装路径、生成的项目产物、可视化和论文链接都能被外部检查。[2][5] 这种开放性让 ChatDev 比一个封闭的专有智能体群演示更有用。即使某个团队从不直接采用 ChatDev,也可以从这个项目学习:它怎样把多智能体协作转成角色、排序阶段、日志和可重建的输出。

视频无法证明的部分

视频是一段 walkthrough,不是审计。它能展示一次令人满意的运行,却无法证明系统在混乱仓库、私有代码库、易碎依赖、安全敏感改动或长期维护工作中都可靠。[1] 这里,书面来源更重要,因为它们划出了演示本身给不出的边界。最初的论文描述的是受控的软件开发设置,而不是对工程实践的全面替代。[3] MacNet 扩展了协作这一命题,但扩大智能体数量,与扩大正确性,并不等同。[4]

对于实际做产品和工程的人,最有用的收获,是把 ChatDev 这类系统当作规格放大器,而不是自治队友。一次好的运行,应留下更清楚的产品请求、可检查的实现路径、能运行的产物,以及审查记录。一次坏的运行,会生成大量自信对话,却把真实决策藏在可信的文字里。差别不在性格,而在工作流契约是否迫使产物穿过每一次交接后仍然留下来。

这也是 ChatDev 可被看作 AI-China 信号的原因,即便它并非市场上最大模型故事。当前中国 AI 竞赛有很大一部分围绕分发展开:IDE 里的编码智能体,文档套件里的办公智能体,手机应用流程里的手机智能体,企业工作台里的云端智能体。ChatDev 指向这些产品下方的一层。它追问应有多少个智能体、它们该怎样对话、它们的工作该怎样记录,以及人在输出出现之后怎样恢复责任链。

观看这段演示的最好方式,是带着工程师的怀疑目光。可以欣赏那家迷你软件公司,但不要停在那里。要看任务在哪里被拆开,决策在哪里被带往下一步,审查在哪里有牙齿,最终软件又在哪里超过了礼貌智能体消息的总和。若这些部分都在场,ChatDev 2.0 就不只是 bot 假装成一个团队的演示。它是一场公开实验,目标是把智能体协作做得足够可检查,从而成为工程表面。[1][2][3][4]

来源

  1. AutomaX Studio,“Build AI Teams WITHOUT Code! ChatDev 2.0 Changes EVERYTHING,” YouTube 视频。
  2. OpenBMB,“ChatDev 2.0: Dev All through LLM-powered Multi-Agent Collaboration,” GitHub 仓库 README。
  3. Chen Qian et al.,“ChatDev: Communicative Agents for Software Development,” arXiv:2307.07924。
  4. Chen Qian et al.,“Scaling Large Language Model-based Multi-Agent Collaboration,” arXiv:2406.07155。
  5. OpenBMB,“ChatDev” 项目网站。
  6. Wikimedia Commons,“Tsinghua University - Square building”,pfctdayelise 拍摄的照片。