跳转至

机器人开始互相学习了

封面

你有没有想过一个问题:为什么你学会用筷子之后,换一双不同牌子的筷子也不会影响你吃饭?

因为人类天生会"迁移学习"——在一个场景学会的技能,能自动适配到另一个场景。但机器人不行。直到现在。

2026年5月,由前 Google DeepMind 和斯坦福/伯克利机器人专家创立的 Physical Intelligence 公司,发布了机器人基础模型 π0.7。这个东西有多厉害?它让机器人第一次实现了"学会一件事,就能在不同机器人身上复用"。

换句话说,机器人开始互相学习了。

以前有多难

传统的工业机器人编程,一台机械臂完成一个动作,需要工程师花几天甚至几周写代码。换一个品牌、换一个型号?重新来一遍。

这就是为什么工厂里的机器人虽然多,但每一条产线都是定制的孤岛。一台富士康的机械臂学会装螺丝,不可能把这个"经验"传给隔壁库卡的机械臂——它们说的是完全不同的"语言"。

π0.7 改变了这个局面。

一个模型,所有机器人

π0.7 的核心突破叫做"多样性上下文条件训练"(Diverse Context Conditioning)。简单说,它在训练时不光学"怎么做动作",还学会了理解质量评分、速度要求、错误类型、甚至 AI 生成的子目标图像。

配图

这带来的结果是:同一个模型可以驱动不同品牌的机械臂、人形机器人、移动平台,而不需要针对每个硬件做额外训练。它可以:

  • 叠衣服
  • 操作咖啡机
  • 削蔬菜皮
  • 倒垃圾
  • 收拾桌子

关键是——这些技能不是分别编程的。是模型自己"理解"了这些动作的逻辑,然后举一反三。

用嘴就能教机器人干活

更让人兴奋的是,π0.7 支持"语言指导"(verbal coaching)。你不需要写代码,只需要用自然语言告诉它:"把这个箱子搬到左边,注意别碰到桌上的杯子。"

它能听懂,甚至能根据上下文调整动作。比如你说"轻一点",它就会降低力度;你说"快一点",它会加速但保持精准。

这背后是视觉-语言-动作(VLA)推理能力的进化。机器人不再只是执行预设指令,而是真正在"理解场景"。

英伟达在背后做了什么

配图

Physical Intelligence 不是唯一在推进这件事的。英伟达在 2026 年 GTC 大会上发布了一整套机器人 AI 技术栈:

  • Isaac GR00T 开源模型:支持自然语言指令执行,融合视觉-语言-动作推理
  • Cosmos 世界模型:用合成数据做大规模机器人训练
  • Newton 1.0 物理引擎:开源,支持精细操作和精确碰撞检测
  • NemoClaw:开发者用自然语言指令就能控制机器人

这套组合拳的意思是:英伟达不光卖你 GPU 训练 AI,还要卖你一整套"机器人操作系统"。

这意味着什么

回顾一下计算机的历史:个人电脑爆发,是因为 Windows 让不同品牌的硬件运行同一套软件。智能手机爆发,是因为 iOS 和 Android 让不同品牌的手机跑同一个 App。

机器人行业一直缺少这样一个"操作系统层"。每个机器人公司都在造自己的软硬件闭环,结果是整个行业发展缓慢。

π0.7 和英伟达的 GR00T 正在成为这个"操作系统"。一旦机器人有了通用的大脑,硬件就会加速商品化,应用会像 App 一样爆发。

到那时候,你买一个机器人回家,不需要考虑它是什么牌子——只需要下载对应的"技能包",它就能帮你做饭、打扫、遛狗。

这一天,可能比我们想象的要近得多。