机器人开始互相学习了

你有没有想过一个问题:为什么你学会用筷子之后,换一双不同牌子的筷子也不会影响你吃饭?
因为人类天生会"迁移学习"——在一个场景学会的技能,能自动适配到另一个场景。但机器人不行。直到现在。
2026年5月,由前 Google DeepMind 和斯坦福/伯克利机器人专家创立的 Physical Intelligence 公司,发布了机器人基础模型 π0.7。这个东西有多厉害?它让机器人第一次实现了"学会一件事,就能在不同机器人身上复用"。
换句话说,机器人开始互相学习了。
以前有多难¶
传统的工业机器人编程,一台机械臂完成一个动作,需要工程师花几天甚至几周写代码。换一个品牌、换一个型号?重新来一遍。
这就是为什么工厂里的机器人虽然多,但每一条产线都是定制的孤岛。一台富士康的机械臂学会装螺丝,不可能把这个"经验"传给隔壁库卡的机械臂——它们说的是完全不同的"语言"。
π0.7 改变了这个局面。
一个模型,所有机器人¶
π0.7 的核心突破叫做"多样性上下文条件训练"(Diverse Context Conditioning)。简单说,它在训练时不光学"怎么做动作",还学会了理解质量评分、速度要求、错误类型、甚至 AI 生成的子目标图像。

这带来的结果是:同一个模型可以驱动不同品牌的机械臂、人形机器人、移动平台,而不需要针对每个硬件做额外训练。它可以:
- 叠衣服
- 操作咖啡机
- 削蔬菜皮
- 倒垃圾
- 收拾桌子
关键是——这些技能不是分别编程的。是模型自己"理解"了这些动作的逻辑,然后举一反三。
用嘴就能教机器人干活¶
更让人兴奋的是,π0.7 支持"语言指导"(verbal coaching)。你不需要写代码,只需要用自然语言告诉它:"把这个箱子搬到左边,注意别碰到桌上的杯子。"
它能听懂,甚至能根据上下文调整动作。比如你说"轻一点",它就会降低力度;你说"快一点",它会加速但保持精准。
这背后是视觉-语言-动作(VLA)推理能力的进化。机器人不再只是执行预设指令,而是真正在"理解场景"。
英伟达在背后做了什么¶

Physical Intelligence 不是唯一在推进这件事的。英伟达在 2026 年 GTC 大会上发布了一整套机器人 AI 技术栈:
- Isaac GR00T 开源模型:支持自然语言指令执行,融合视觉-语言-动作推理
- Cosmos 世界模型:用合成数据做大规模机器人训练
- Newton 1.0 物理引擎:开源,支持精细操作和精确碰撞检测
- NemoClaw:开发者用自然语言指令就能控制机器人
这套组合拳的意思是:英伟达不光卖你 GPU 训练 AI,还要卖你一整套"机器人操作系统"。
这意味着什么¶
回顾一下计算机的历史:个人电脑爆发,是因为 Windows 让不同品牌的硬件运行同一套软件。智能手机爆发,是因为 iOS 和 Android 让不同品牌的手机跑同一个 App。
机器人行业一直缺少这样一个"操作系统层"。每个机器人公司都在造自己的软硬件闭环,结果是整个行业发展缓慢。
π0.7 和英伟达的 GR00T 正在成为这个"操作系统"。一旦机器人有了通用的大脑,硬件就会加速商品化,应用会像 App 一样爆发。
到那时候,你买一个机器人回家,不需要考虑它是什么牌子——只需要下载对应的"技能包",它就能帮你做饭、打扫、遛狗。
这一天,可能比我们想象的要近得多。