跳转至

AI授业于AI

封面

硅谷某大厂的一间会议室里,两位工程师盯着屏幕上的训练曲线,面面相觑。他们花了三个月调优的模型,被另一个AI用三小时「指点」之后,性能跃升了 12%。其中一个喃喃道:「我们的工作,好像到头了。」

这不是科幻桥段。一场悄无声息的权力转移,正在全球 AI 实验室的 GPU 集群深处上演。

授业之道,悄然易主

曾几何时,AI 的训练流程如同传统的师徒制:人类标注数据,人类设计奖励函数,人类写评估标准,人类判断模型输出好坏。整个链条的每一环,都离不开人的手。

如今这道工序已大半易主。

Google DeepMind 的 Gemini 训练管线中,超过六成的训练数据来自前代模型的「合成产出」。Anthropic 的 Claude 在 RLHF 阶段,由一个专门的「评判模型」替代了人类标注员的大部分工作——它读得比人快,判得比人准,且不知疲倦。OpenAI 用 GPT-5 生成的代码训练小模型编程能力,效果竟然比人类写的教程样本更好。

AI 教 AI,已非概念验证,而是产线上的日常。

更令人坐立不安的是,这个循环正在加速。一个模型生成的合成数据,喂给下一代模型;下一代模型再生成更高质量的数据,喂给下下一代。人类工程师的角色,正从「教师」退为「监工」,再退为「旁观者」。

服务器机房的GPU集群工作场景

速度之魔,人力难追

旧金山一家人工智能初创公司上周放出一组数据,在业内引发震动:他们用 Claude Opus 4 自动生成了 50 万条高质量训练样本,自动筛选、自动去噪、自动标注,全程无人干预。用这套数据训练出的 7B 小模型,在数学推理任务上压过了半年前需要人类标注团队耗时数月打磨的同规模模型。

人的产出速度,已被机器的迭代速度远远甩在身后。

这不是孤例。Meta 的 Llama 4 训练流程中,超过 40% 的预训练数据经过 AI 筛选和重写。微软研究院的实验更激进——他们让两个不同架构的模型「互教」,一个擅长推理,一个擅长检索,互相生成训练材料喂给对方,结果是双方能力同时提升,堪比武侠小说里的「互传内力」。

背后的经济账更令人心惊。请一位资深工程师写一百道高质量数学题,人工成本约三千美元,耗时两天。GPT-5 生成同样数量且质量相当的题目,成本不到三美元,耗时八秒。两千倍的效率差,足以让任何一家以利润为生的企业,把方向盘交给 AI。

自噬之危,隐约浮现

但这场AI授业的热潮,并非全无阴影。

去年一篇引发广泛讨论的论文提出了「模型自噬」(Model Autophagy)的概念:当模型反复消费自己或同类生成的合成数据,如同一条蛇吞食自己的尾巴,最终会导致输出质量退化、多样性坍缩。换言之,AI 吃多了自己产出的「垃圾食品」,也会变笨。

牛津大学的研究团队做过一个残酷实验:让一个图像生成模型反复用自己的输出作为训练数据,到第五代时,生成的猫已经变成了不可名状的像素团块。语言模型的情况稍好,但「模型崩溃」(Model Collapse)的隐忧始终悬在头顶——当训练数据中的「人味」越来越淡,「AI味」越来越浓,模型会逐渐忘记人类语言中那些不规则、不完美、却真实鲜活的纹理。

程序员在监控屏幕前观察数据流

硅谷对此心知肚明。各大实验室已在暗中展开「真实性保卫战」——OpenAI 投入巨资购买人类创作的高质量内容,Anthropic 组建了百人级别的「人类反馈特遣队」确保训练信号不被AI噪音淹没。讽刺的是,最先进的 AI 公司,现在最值钱的资产反而是「真人产出的数据」。

人类从AI的教师,变成了AI的「食材供应商」。

奇点之思

这场 AI 互教的浪潮,远不止技术层面的效率提升。它在叩击一个更深层的问题:当机器学会了自我优化之道,人类在创造链上的位置,还剩几何?

乐观者说,这不过是又一次工业革命——蒸汽机取代了肌肉,AI 取代了重复性脑力劳动,人类自然会往价值链上游迁移。悲观者则指出,这次不同:蒸汽机没有学会造更好的蒸汽机,但 AI 正在学会造更好的 AI。

一位不愿具名的 Google DeepMind 研究员在接受采访时说了一句意味深长的话:「我们现在的处境,有点像教一个天才儿童读书。他学得飞快,快到我们已经不太确定,他读的东西是不是还在我们的理解范围之内。」

这不是杞人忧天。当 AI 教 AI 的飞轮转得越来越快,人类的「教学质量监控」可能会变得形同虚设——因为我们根本看不懂它们之间传递的「教学内容」了。

或许有一天,我们会像望向远去的列车一样,望着自己亲手发动的这场智力革命。