跳转至

大模型被掏空之后……

封面

一个六人团队,花了不到50万美元,训练出一个模型。

在数学推理上,它追平了GPT-5。在代码生成上,它只差了不到3个百分点。在MMLU基准测试上,它把一堆千亿参数的大块头踩在脚下。

秘密?不是天才算法,不是独家数据。是偷师。

他们做的事简单得让人想笑:用GPT-5的API生成了几百万条高质量问答对,然后拿这些数据去训练自己的小模型。参数不到百亿,成本不到原版五十分之一,效果却逼近原版。

OpenAI的工程师看到评测结果时,脸色应该不太好看。

这种做法在AI圈有个体面的名字——"知识蒸馏"。说白了就是:大模型在前面探路,小模型在后面抄答案。抄到后来,抄出了真本事。

蒸馏,不是抄袭,是学习

这事说起来其实不新鲜。

2015年,Geoffrey Hinton——深度学习三巨头之一——就提出了知识蒸馏的概念。思路很朴素:一个庞大的"教师模型"已经学会了从数据中提取规律,不如让一个小型的"学生模型"直接学习教师的输出,跳过那些在原始数据里摸爬滚打的低效过程。

打个比方。一个人花十年啃遍医学教科书成了名医。另一个人没看原版教材,直接跟着这位名医出诊,看他的诊断、记他的方子、学他的判断逻辑。三年下来,第二名医的水平,未必比第一个差。

这就是蒸馏的本质。它不是简单的复制粘贴。教师模型输出的不仅是答案,还包括答案的"软标签"——比如"这张图70%的概率是猫,20%是狗,10%是豹子"。这些概率分布里藏着教师模型对世界的理解,比一个冷冰冰的"答案是猫"丰富得多。

学生模型学的不是标准答案,是老师的思维方式。

程序员深夜训练模型的场景

OpenAI的ToS是纸糊的

问题来了:这不违规吗?

OpenAI的服务条款写得清清楚楚——禁止用API输出训练竞品模型。Anthropic、Google、Meta的条款也大同小异。表面上看,蒸馏大厂模型是被禁止的。

但现实是,这道墙跟纸糊的没区别。

你怎么证明一个模型是蒸馏来的?如果开发者用了多个教师模型混合生成数据,再加一些自己的清洗和增强,输出的训练集看起来就像原创数据。除非你拿到对方完整的训练流程,否则根本抓不到实锤。

况且,管得住API,管不住开源模型。Meta的Llama系列、DeepSeek、Mistral的开源版本——权重直接下载,想怎么蒸馏怎么蒸馏,没人拦得住你。Sam Altman前脚发推警告"不要蒸馏我们的模型",后脚开源社区就蒸馏出了能在单张H100上跑的"小GPT"。

更黑色幽默的是:OpenAI自己也在干这事。内部消息显示,他们训练新一代推理模型时,大量依赖了DeepSeek-R1生成的数据。一边骂别人偷师,一边自己也在偷。

大厂的护城河,正在被蒸馏烧干

这背后是一个让硅谷寝食难安的问题:如果蒸馏出来的小模型跟大模型差距越来越小,那大厂花几十亿美元建的算力集群还有什么意义?

OpenAI去年烧了50亿美元。Google的Gemini训练一次电费就够一个小城市用一天。Meta为Llama系列砸进去的GPU,能买下整个冰岛的发电量。

然后一个六人团队用蒸馏告诉你:其实不需要这么多。

这不只是技术问题,是商业模式问题。

大厂卖的是什么?是API调用。按token收费。如果客户发现一个蒸馏过的小模型部署在自己服务器上,效果差不多、延迟更低、数据不出门——为什么要付钱给OpenAI?

最近黑客松上冒出来的东西已经说明了一切。医疗诊断助手、法律文书审查、金融分析引擎——这些垂直场景应用,清一色用的是蒸馏后的小模型。不是大厂的API不好,是小模型"够用"了。一旦"够用",价格就是唯一的理由。

巨头反击:污染数据、锁死API

大厂不是坐以待毙的傻子。

他们开始反击了。手段比你想的脏。

第一招:在API输出里埋"水印"。不是可见的标记,是概率偏差——刻意在某些词汇上使用非常规的分布。如果一个小模型的输出模式跟大模型的水印特征吻合,抓现行。

第二招:主动输出错误数据。在少数API响应里混入故意制造的幻觉——"埃菲尔铁塔在伦敦"——拿去蒸馏的小模型会学到这些错误,一上线就闹笑话,自暴身份。

第三招:法律武器。OpenAI已经对几家疑似蒸馏的公司发了律师函,虽然没有公开打官司,但法务压力足以劝退大部分正规投资机构。没有VC敢投一个随时被起诉的AI公司。

问题是,这些手段治标不治本。开源模型在那摆着,你污染不了。全球开发者在那等着,你拦不住。蒸馏技术在那进化着,你追不上。

服务器机房成排机柜

蒸馏之后,AI还剩什么壁垒

这件事的本质,不是技术攻防。是AI产业的价值链正在被重写。

半年之前,AI壁垒是算力。谁GPU多谁厉害。蒸馏把算力门槛从"建个核电站"砍到了"租几台服务器"。

现在,壁垒在往两端跑。

一端是数据。蒸馏能复制模型的推理能力,但复制不了企业对特定领域的认知积累。法律AI需要判例库,医疗AI需要真实临床数据,金融AI需要交易记录——这些数据不在公开API里。你有别人没有的数据,你就有别人做不出的AI。

另一端是责任。蒸馏能让小模型回答得跟大模型一样好,但它不能让小模型承受一样重的代价。AI医生诊断错了谁负责?AI律师给错了建议谁赔偿?大厂有钱赔、有保险兜、有合规团队。蒸馏出来的草台班子,出一次事就死了。

中间那层——纯靠模型能力的业务——正在被蒸馏碾成粉。

水往低处流,AI也是

蒸馏这件事,你拦不住。

不是因为技术防不了。是因为它符合一个无法抗拒的规律:能力总是从高处流向低处,从昂贵流向便宜,从集中流向分散。

当年计算能力锁在大型机里,IBM说"世界上只需要五台计算机"——然后PC来了。当年互联网接入控制在电信巨头手里——然后宽带普及了。当年软件只有大公司买得起——然后开源来了。

每一次,壁垒的守护者都说"这次不一样"。每一次,历史都说"一样的"。

现在轮到AI了。千亿参数的大模型就是当年的大型机——昂贵、中心化、被少数玩家垄断。蒸馏就是那台第一代PC——笨拙、粗糙,但足以撬动整个市场格局。

六人团队能做出来的东西,三千个团队已经在做了。你只能堵住其中三个。

大模型的壁被蒸馏烧穿了。接下来烧的是谁,你猜猜看。


参考来源:Geoffrey Hinton et al. "Distilling the Knowledge in a Neural Network" (2015);OpenAI Terms of Service §2(c);DeepSeek-R1技术报告;Meta Llama开源许可;硅谷风险投资机构对AI蒸馏赛道的内部调研