ChatDev 2.0 把多智能体工作变成工作流契约问题

封面采用清华大学的真实照片，因为 ChatDev 来自 OpenBMB 生态，而这个生态围绕清华相关的模型与智能体工作展开；本文关心的是机构化工程能力，并非一张生成式智能体图解。[6]

ChatDev 2.0 这段演示有用，恰恰因为它一开始显得很普通：用户输入一个提示词，一个小型软件组织随即出现，智能体把任务拆成产品、设计、编码、测试和文档工作。[1][2] 这一层表面很容易被看成剧场。给几个智能体安上职衔，让它们互相发言，演示就像一间缩小的办公室。更严格的读法落在另一处：当这些角色停止卖萌，开始像工作流契约一样运转时，ChatDev 才真正变得有意思。

OpenBMB 的仓库把 ChatDev 2.0 描述为 “Dev All through LLM-powered Multi-Agent Collaboration”，同一份 README 也指向 MacNet，把它作为一种更通用的有向无环图方案，用于面向任务的智能体协作。[2] 这就是观看视频时最重要的背景。真正的 AI-China 信号，并不在于中国研究者又做了一个 coding assistant，而在于一个开放项目正在尝试把多智能体执行写清楚：拓扑、消息传递、产物和检查点都要露出来，而整件事不再只是漫长而隐藏的一串模型调用。

最初的 ChatDev 论文把系统设定为一家虚拟软件公司，其中的智能体经由从瀑布模型派生出来的 “chat chain” 通信。[3] 这个设计选择很有分量。单个编码模型可以生成漂亮片段，同时让操作者猜不透需求在哪里改变、测试在哪里被想象出来、某个文件为何存在。ChatDev 的价值主张，是把协作本身变成可检查的产物。观看这段视频时，问题也应放在这里：演示在哪些地方露出了契约，哪些地方仍然要求观众交出信任？

看交接，不只看角色身份

过度解读这段演示，最容易走向智能体名称。首席产品官、架构师、程序员、审查员、测试员或设计师这些称呼，会让系统显得比实际更像人。更好的标注方式，是盯住交接。每一个有用的角色都应把一个决策收窄：用户到底提出了什么、界面需要什么、代码该怎样写、哪项测试能抓住明显故障，以及文档如何解释最后的行为。

这也是 ChatDev 应被放进 AI-China 智能体讨论，而不只是通用 productivity tools 桶里的原因。这个项目承诺的内容不止是更快的初稿。它暴露出一个中国及中国相关 AI 技术栈正在编码、办公、机器人和 GUI 控制之间共同靠近的模式：模型只是其中一层；真正能交付的产品，是围绕模型编排出来的回路。在 ChatDev 里，这个回路格外清楚，因为输出物就是软件。智能体消息、生成文件、依赖选择和测试步骤，在运行之后都可以被检查。[2][3]

当视频展示一个任务穿过多个智能体时，重要问题不在每条消息是否听起来聪明，而在系统是否保留了足够状态，足以避免自相矛盾。若产品角色决定了一个功能，实施角色却悄悄改掉范围，所谓“团队”隐喻就已经失败。若审查角色抓住这种错位，协作才有了真实骨架。因此，ChatDev 最强的想法并非角色扮演，而是把工作阶段之间的界限显性写出。

拓扑成了产品要露出来的一面

把 ChatDev 2.0 放在 MacNet 旁边读，它会更有意思。MacNet 论文主张，多智能体协作应被表示为图，智能体按拓扑组织起来解决任务；论文评估还报告，这种方法可以协调超过一千个智能体，并且不规则拓扑在一些测试中优于规则拓扑。[4] 这些主张不适合被当作每个工程团队的部署担保。更合适的读法，是把它们看成一条研究方向：一旦协作被建模为拓扑，智能体网络的形状就成了可以设计、测试和修改的东西。

这会改变视频带来的观感。简单链条解释成本低，也会形成瓶颈。宽图更加灵活，也会丢失责任线索。设计问题随之变成：选择最小的智能体编排，让工作更容易验证。对于一个小应用，窄的产品、设计、代码、审查、测试链条已经足够。对于更大的任务，图里需要分出规划、UI、后端、QA、安全和文档等通道。问题也变得更像工程问题：哪些智能体边能减少含混，哪些边只是制造更多对话？

这正是中国相关开放 AI 工作值得持续观察的地方。OpenBMB 的项目页和仓库给了系统一个少见的公开表面：安装路径、生成的项目产物、可视化和论文链接都能被外部检查。[2][5] 这种开放性让 ChatDev 比一个封闭的专有智能体群演示更有用。即使某个团队从不直接采用 ChatDev，也可以从这个项目学习：它怎样把多智能体协作转成角色、排序阶段、日志和可重建的输出。

视频无法证明的部分

视频是一段 walkthrough，不是审计。它能展示一次令人满意的运行，却无法证明系统在混乱仓库、私有代码库、易碎依赖、安全敏感改动或长期维护工作中都可靠。[1] 这里，书面来源更重要，因为它们划出了演示本身给不出的边界。最初的论文描述的是受控的软件开发设置，而不是对工程实践的全面替代。[3] MacNet 扩展了协作这一命题，但扩大智能体数量，与扩大正确性，并不等同。[4]

对于实际做产品和工程的人，最有用的收获，是把 ChatDev 这类系统当作规格放大器，而不是自治队友。一次好的运行，应留下更清楚的产品请求、可检查的实现路径、能运行的产物，以及审查记录。一次坏的运行，会生成大量自信对话，却把真实决策藏在可信的文字里。差别不在性格，而在工作流契约是否迫使产物穿过每一次交接后仍然留下来。

这也是 ChatDev 可被看作 AI-China 信号的原因，即便它并非市场上最大模型故事。当前中国 AI 竞赛有很大一部分围绕分发展开：IDE 里的编码智能体，文档套件里的办公智能体，手机应用流程里的手机智能体，企业工作台里的云端智能体。ChatDev 指向这些产品下方的一层。它追问应有多少个智能体、它们该怎样对话、它们的工作该怎样记录，以及人在输出出现之后怎样恢复责任链。

观看这段演示的最好方式，是带着工程师的怀疑目光。可以欣赏那家迷你软件公司，但不要停在那里。要看任务在哪里被拆开，决策在哪里被带往下一步，审查在哪里有牙齿，最终软件又在哪里超过了礼貌智能体消息的总和。若这些部分都在场，ChatDev 2.0 就不只是 bot 假装成一个团队的演示。它是一场公开实验，目标是把智能体协作做得足够可检查，从而成为工程表面。[1][2][3][4]

cronfeed.work

ChatDev 2.0 把多智能体工作变成工作流契约问题

看交接，不只看角色身份

拓扑成了产品要露出来的一面

视频无法证明的部分

来源

Recommended In ai china