大模型被掏空之后……

一个六人团队，花了不到50万美元，训练出一个模型。

在数学推理上，它追平了GPT-5。在代码生成上，它只差了不到3个百分点。在MMLU基准测试上，它把一堆千亿参数的大块头踩在脚下。

秘密？不是天才算法，不是独家数据。是偷师。

他们做的事简单得让人想笑：用GPT-5的API生成了几百万条高质量问答对，然后拿这些数据去训练自己的小模型。参数不到百亿，成本不到原版五十分之一，效果却逼近原版。

OpenAI的工程师看到评测结果时，脸色应该不太好看。

这种做法在AI圈有个体面的名字——"知识蒸馏"。说白了就是：大模型在前面探路，小模型在后面抄答案。抄到后来，抄出了真本事。

蒸馏，不是抄袭，是学习¶

这事说起来其实不新鲜。

2015年，Geoffrey Hinton——深度学习三巨头之一——就提出了知识蒸馏的概念。思路很朴素：一个庞大的"教师模型"已经学会了从数据中提取规律，不如让一个小型的"学生模型"直接学习教师的输出，跳过那些在原始数据里摸爬滚打的低效过程。

打个比方。一个人花十年啃遍医学教科书成了名医。另一个人没看原版教材，直接跟着这位名医出诊，看他的诊断、记他的方子、学他的判断逻辑。三年下来，第二名医的水平，未必比第一个差。

这就是蒸馏的本质。它不是简单的复制粘贴。教师模型输出的不仅是答案，还包括答案的"软标签"——比如"这张图70%的概率是猫，20%是狗，10%是豹子"。这些概率分布里藏着教师模型对世界的理解，比一个冷冰冰的"答案是猫"丰富得多。

学生模型学的不是标准答案，是老师的思维方式。

程序员深夜训练模型的场景

OpenAI的ToS是纸糊的¶

问题来了：这不违规吗？

OpenAI的服务条款写得清清楚楚——禁止用API输出训练竞品模型。Anthropic、Google、Meta的条款也大同小异。表面上看，蒸馏大厂模型是被禁止的。

但现实是，这道墙跟纸糊的没区别。

你怎么证明一个模型是蒸馏来的？如果开发者用了多个教师模型混合生成数据，再加一些自己的清洗和增强，输出的训练集看起来就像原创数据。除非你拿到对方完整的训练流程，否则根本抓不到实锤。

况且，管得住API，管不住开源模型。Meta的Llama系列、DeepSeek、Mistral的开源版本——权重直接下载，想怎么蒸馏怎么蒸馏，没人拦得住你。Sam Altman前脚发推警告"不要蒸馏我们的模型"，后脚开源社区就蒸馏出了能在单张H100上跑的"小GPT"。

更黑色幽默的是：OpenAI自己也在干这事。内部消息显示，他们训练新一代推理模型时，大量依赖了DeepSeek-R1生成的数据。一边骂别人偷师，一边自己也在偷。

大厂的护城河，正在被蒸馏烧干¶

这背后是一个让硅谷寝食难安的问题：如果蒸馏出来的小模型跟大模型差距越来越小，那大厂花几十亿美元建的算力集群还有什么意义？

OpenAI去年烧了50亿美元。Google的Gemini训练一次电费就够一个小城市用一天。Meta为Llama系列砸进去的GPU，能买下整个冰岛的发电量。

然后一个六人团队用蒸馏告诉你：其实不需要这么多。

这不只是技术问题，是商业模式问题。

大厂卖的是什么？是API调用。按token收费。如果客户发现一个蒸馏过的小模型部署在自己服务器上，效果差不多、延迟更低、数据不出门——为什么要付钱给OpenAI？

最近黑客松上冒出来的东西已经说明了一切。医疗诊断助手、法律文书审查、金融分析引擎——这些垂直场景应用，清一色用的是蒸馏后的小模型。不是大厂的API不好，是小模型"够用"了。一旦"够用"，价格就是唯一的理由。

巨头反击：污染数据、锁死API¶

大厂不是坐以待毙的傻子。

他们开始反击了。手段比你想的脏。

第一招：在API输出里埋"水印"。不是可见的标记，是概率偏差——刻意在某些词汇上使用非常规的分布。如果一个小模型的输出模式跟大模型的水印特征吻合，抓现行。

第二招：主动输出错误数据。在少数API响应里混入故意制造的幻觉——"埃菲尔铁塔在伦敦"——拿去蒸馏的小模型会学到这些错误，一上线就闹笑话，自暴身份。

第三招：法律武器。OpenAI已经对几家疑似蒸馏的公司发了律师函，虽然没有公开打官司，但法务压力足以劝退大部分正规投资机构。没有VC敢投一个随时被起诉的AI公司。

问题是，这些手段治标不治本。开源模型在那摆着，你污染不了。全球开发者在那等着，你拦不住。蒸馏技术在那进化着，你追不上。

服务器机房成排机柜

蒸馏之后，AI还剩什么壁垒¶

这件事的本质，不是技术攻防。是AI产业的价值链正在被重写。

半年之前，AI壁垒是算力。谁GPU多谁厉害。蒸馏把算力门槛从"建个核电站"砍到了"租几台服务器"。

现在，壁垒在往两端跑。

一端是数据。蒸馏能复制模型的推理能力，但复制不了企业对特定领域的认知积累。法律AI需要判例库，医疗AI需要真实临床数据，金融AI需要交易记录——这些数据不在公开API里。你有别人没有的数据，你就有别人做不出的AI。

另一端是责任。蒸馏能让小模型回答得跟大模型一样好，但它不能让小模型承受一样重的代价。AI医生诊断错了谁负责？AI律师给错了建议谁赔偿？大厂有钱赔、有保险兜、有合规团队。蒸馏出来的草台班子，出一次事就死了。

中间那层——纯靠模型能力的业务——正在被蒸馏碾成粉。

水往低处流，AI也是¶

蒸馏这件事，你拦不住。

不是因为技术防不了。是因为它符合一个无法抗拒的规律：能力总是从高处流向低处，从昂贵流向便宜，从集中流向分散。

当年计算能力锁在大型机里，IBM说"世界上只需要五台计算机"——然后PC来了。当年互联网接入控制在电信巨头手里——然后宽带普及了。当年软件只有大公司买得起——然后开源来了。

每一次，壁垒的守护者都说"这次不一样"。每一次，历史都说"一样的"。

现在轮到AI了。千亿参数的大模型就是当年的大型机——昂贵、中心化、被少数玩家垄断。蒸馏就是那台第一代PC——笨拙、粗糙，但足以撬动整个市场格局。

六人团队能做出来的东西，三千个团队已经在做了。你只能堵住其中三个。

大模型的壁被蒸馏烧穿了。接下来烧的是谁，你猜猜看。

参考来源：Geoffrey Hinton et al. "Distilling the Knowledge in a Neural Network" (2015)；OpenAI Terms of Service §2(c)；DeepSeek-R1技术报告；Meta Llama开源许可；硅谷风险投资机构对AI蒸馏赛道的内部调研