截至 2026-04-20 UTC,宇树在 AI-China 语境里最值得看的信号,并不只是中国机器人公司能够用消费电子价格出售吸引眼球的人形机器人。产品页已经把这一层写得很显眼:G1 被描述成 “Humanoid agent AI avatar”,起价 13,500 美元,按配置拥有 23 到 43 个关节电机,配备深度相机与 3D LiDAR、四麦克风阵列、扬声器、Wi-Fi 6、Bluetooth 5.2,G1 EDU 可选 NVIDIA Jetson Orin,并明确支持二次开发。[4] 更强的信号在于,宇树正试图把这些机器包进一套开放的具身学习栈,而并非让它们停留在会动的硬件奇观里。[1][2][3][4]

公开材料已经指向同一个方向。宇树开源页把 UnifoLM-VLA-0 列为面向人形机器人操作的 Vision-Language-Action 模型,又描述了 G1 灵巧手、G1 夹爪和 Z1 双臂场景的数据集,并链接到一套适配宇树硬件的 LeRobot 模仿学习框架。[1] 同一页面还把 UnifoLM-WBT-Dataset 描述为一个开放场景的人形机器人全身遥操作真机数据集,已在 2026 年 3 月 5 日上线,并将持续高频滚动更新。[1] 顺着这些材料读下去,它们并非彼此分散的 GitHub 展品,而是一条回路的部件:出售机器人,收集演示,把数据转换成可训练格式,微调动作策略,再把策略部署回真机,如此反复推进。[1][2]

配图说明:题图避开了渲染产品图。真实拍摄的 G1 更适合作为视觉锚点,因为本文判断依赖具身性。Vision-language-action 模型只有在相机画面、关节状态、动作块、延迟、手、电池与安全边界都进入物理空间之后,才真正具有意义。[4][6]

产品页已经越过了运动能力

G1 的页面比普通规格表更有信息量,因为它没有停在机器人运动本身。它把这台机器人包装成人形 Agent,说明模仿学习与强化学习正在驱动技术演进,并在“Robot world model, let's create it together”这一行下面把 UnifoLM 称为 “Unified Robot Large Model”。[4] 这套语言很关键。它显示宇树正试图把购买讨论从“这个机器人有多敏捷”移向“这个机器人可以加入怎样的学习回路”。

硬件仍然约束一切。一台重量约 35 kg、快拆 9000 mAh 电池续航约 2 小时、同时带深度相机和 3D LiDAR 的机器人,并非一只长了腿的云端聊天机器人。[4] 它是一套有电力、感知、扭矩、算力和安全限制的物理平台。宇树自己提醒,人形机器人行业仍处于早期探索阶段,这句话反而有用,因为它把判断边界收住。[4] 这里的信号并非 G1 突然成为通用家庭工人,而是宇树暴露出足够多的硬件、二次开发表面和训练基础设施,使研究者与开发者可以把机器人当作会持续产生数据的端点。

这和纯硬件表演是不同姿态。页面里可选的灵巧手自由度、Jetson Orin 模块和二次开发通道很重要,因为 VLA 研究正需要这些桥:可管理的具身平台、感知、动作接口,以及真实世界测试路径。[4]

UnifoLM-VLA 补上动作层

UnifoLM-VLA 仓库给这套策略提供了最清楚的工程形状。它把 UnifoLM-VLA-0 定义为 UnifoLM 家族中的 Vision-Language-Action 模型,面向通用人形机器人操作。README 说明,这个模型通过在机器人操作数据上持续预训练,从视觉语言理解演进为带有物理常识的“具身大脑”,并强调空间感知、几何理解和动作泛化能力。[2]

实现细节和口号同样重要。仓库写明,代码、模型权重、训练、推理和 checkpoint 已在 2026 年 1 月 29 日发布。[2] 它把 CUDA 12.4 列为强烈建议的运行环境,提供从 LeRobot 格式转到 HDF5 与 RLDS 的数据转换路径,暴露 model-server 部署代码,并把服务器端动作推理与收集真机观测的机器人客户端分开。[2] 这正是信号里扎实的一层。宇树并不只是在宣称 VLA 模型是未来,它正在公开那些把采集演示转成可训练策略、再让策略面向真实机器人客户端运行的胶水。[2]

项目页补上了基准与真机框架。在 LIBERO 上,UnifoLM-VLA-0 被列为在 Spatial、Object、Goal 和 Long 四组任务上的平均 98.7,页面还说宇树在 G1 真机平台上构建了覆盖 12 类复杂操作任务的数据集。[3] 这些数字需要按通常的评测边界来读;仿真任务成功率和演示页视频,不等于在杂乱房间里无监督部署。即便如此,披露结构本身值得重视。宇树把 benchmark 主张、数据集结构、模型权重、训练脚本与机器人推理,放进了同一个公开表面。[2][3]

开放数据集把硬件规模转成模型杠杆

更深一层的 AI-China 含义在数据。人形机器人面对的是严酷的数据问题:互联网规模视频可以教外观与语言,却不会自动给出对齐的关节轨迹、夹爪状态、力约束、恢复行为,或者特定平台上的安全全身运动。OpenVLA 在 2024 年的论文让更广义的领域变得清楚:机器人操作要被当作 vision-language-action 问题来处理,而并非把 VLM 停在描述场景的层面。[5] 宇树的版本更窄,也更有商业锋芒:从公司能够制造、布设和销售的机器出发,再让这些机器成为动作数据的来源。[1][2][4]

因此,开源页上的数据集列表很重要。G1 灵巧手、G1 夹爪、Z1 双臂和全身遥操作数据集,在产品硬件与模型训练之间架起桥梁。[1] 基于 LeRobot 的项目也出于同一个原因重要:它把一个已知的开放训练框架适配到宇树的 G1、Z1 和 Dex3 硬件上,让团队可以从数据采集走向算法工作、训练和真机部署测试。[1]

如果这条回路跑通,宇树的护城河就不只来自执行器成本、敏捷视频或醒目的价格点。它会变成一个反馈系统。更多进入实验室的机器人创造更多演示。更多演示改善策略。更好的策略让硬件更有用。更有用的硬件吸引更多开发者和买家。这条回路仍然早期、脆弱,并且受任务边界约束,但它比只依靠病毒式运动视频更像一条严肃的 AI 路线。[1][2][3][4]

接下来观察什么

下一层证明并非另一段后空翻视频,而是宇树能否持续把物理使用转成可复用的学习基础设施。最重要的信号有三个。

第一,看 UnifoLM-WBT-Dataset 是否会按宇树开源页承诺持续滚动更新。[1] 静态发布数据集已经有用;如果它能和真实机器人运行相连,成为持续生长的数据集,战略意义会更大。

第二,看 UnifoLM-VLA 的真机任务能否从受控操作类别,扩展到带有恢复、打断处理和跨房间上下文的长序列任务。[2][3] 当单一 checkpoint 能够在任务链条中保持可靠性时,论点才会从 demo 能力移向操作系统价值。

第三,看 G1 EDU 及相关开发者配置,能否在中国和海外成为机器人研究的常见底座。价格点、Jetson 选项、深度感知、LiDAR、麦克风阵列、灵巧手选项和二次开发支持,已经让这个平台对实验室具备可读性。[4] 尚待回答的问题是,是否会有足够多的开发者在它上面标准化,从而让宇树的数据层与模型层持续复利。

眼下较稳妥的读法很窄,却重要:宇树正试图把硬件领先转成具身 AI 飞轮。放在 AI-China 语境里,这一点之所以重要,是因为它把比较对象从聊天机器人排行榜,移向一套更困难的栈:物理产品、开放数据集、模仿学习工具、VLA 模型、仿真与部署代码,以及能够持续生成下一轮训练轨迹的真实机器。[1][2][3][4][5]

来源

  1. Unitree Robotics,《Official Open Source》—— UnifoLM-VLA-0、操作数据集、宇树模仿学习/LeRobot 框架,以及 UnifoLM-WBT-Dataset 说明。
  2. Unitree Robotics,GitHub 仓库《unitreerobotics/unifolm-vla》—— 模型说明、2026 年 1 月 29 日发布记录、安装、数据转换、训练与真实世界推理工作流。
  3. Unitree/Unigen,《UnifoLM-VLA-0: Vision-Language-Action Foundation Model》—— LIBERO 表格与 G1 真机实验摘要。
  4. Unitree Robotics,《Unitree G1》—— 产品定位、价格、传感器、自由度、算力、电池与开发者支持规格。
  5. Moo Jin Kim 等,《OpenVLA: An Open-Source Vision-Language-Action Model》,arXiv,2024—— 机器人操作领域 VLA 语境。
  6. Wikimedia Commons,《Unitree G1.jpg》—— 本文所用 2024 年 Unitree G1 展会实拍照片的来源页面。