
AI模型正在被自己"毒死"¶
你有没有想过一个问题:ChatGPT 每天在给成千上万的人写文章、写代码、写作文。这些内容,最终流向了哪里?
流回了互联网。然后被下一代 AI 模型抓取、训练、吞下。
这不是循环利用。这是AI吃自己的vomit。
2024年,牛津和剑桥的研究者给这个过程取了一个让人毛骨悚然的名字:Model Autophagy Disorder(模型自噬紊乱症),简称 MAD。名字致敬了疯牛病——同样是吃自己的产物,同样会传染,同样致命。
两年后的今天,MAD 不再是论文里的假设。它正在变成AI产业最真实的生存危机。
疯牛病的AI版本¶
疯牛病的原理其实很简单:把牛的肉骨粉喂给牛吃,朊病毒在食物链里循环积累,最终摧毁牛的大脑。
AI的"疯牛病"也是同样的逻辑。
当 GPT-5 用 GPT-4 生成的数据训练,GPT-6 再用 GPT-5 的输出来训练——每一次循环,模型都离"真实世界"更远一步。
研究表明,经过3到5代的递归训练后,大模型会出现三种症状:尾部坍塌(罕见知识消失)、模式坍缩(所有输出趋同)、误差放大(小错误变成大错误)。
2024年 Shumailov 团队在《Nature》发表的实验中,用 OPT-125M 模型在自身生成的文本上做微调。只需几代,模型就开始吐出重复的、无意义的、语法崩坏的句子。就像一个作家被关在房间里,只能反复读自己写的段落——最终疯掉了。

三种"吃法",三种结局¶
牛津的 Alemohammad 团队把 AI 的自噬分成了三种模式:
第一种:完全自食(Fully Synthetic)——模型只吃前代AI生成的数据,没有一丁点人类写的东西。这是最快的死亡螺旋。每迭代一代,语言多样性就下降15%-20%,罕见词汇率先消失,最后输出变成一堆统计上"最安全"但毫无信息量的废话。
第二种:混着吃(Synthetic Augmentation)——一部分真实数据加一部分AI数据。看起来聪明,实际上只是死得慢一点。因为生成数据的量总比真实数据大,几代之后,AI内容的比例就会超过临界点,开始主导训练。结果是"延迟性MAD"——你被骗了,但它早晚要来。
第三种:吃新鲜的(Fresh Data Loops)——每一代都喂全新的、人类创造的原始数据。这是目前唯一被验证有效的解法。
但问题来了:新鲜的人类数据,还够吃多久?
互联网正在变成AI的"泔水桶"¶
2026年最让人不安的统计是这一个:目前互联网上大约57%的长文本内容已经是AI生成的。
Reddit、微博、知乎、Medium——每一秒钟都有AI在批量生产"看起来像人写的"内容。这些内容带着微妙的统计偏差、轻微的语义漂移、看似正确实则空洞的表述,像垃圾食品一样涌入互联网的每个角落。
"Dead Internet Theory"(互联网已死理论)曾经只是一个网络阴谋论。2026年,它变成了数据科学界的共识危机。
更可怕的是:你分不清什么是人写的,什么是AI写的。AI检测工具的正确率已经跌到了60%以下——约等于扔硬币。因为你用的检测器本身也是AI,而新一代的AI生成内容专门训练过"如何骗过检测器"。
这是一个完美的莫比乌斯环:AI生成内容骗过AI检测器,然后被下一代AI当作"人类数据"吃下去。

有人已经开始慌了¶
Google DeepMind 和 Anthropic 在2026年初各自发布了内部数据治理白皮书,核心主张都是同一句话:"人类来源数据是稀缺战略资源"。
OpenAI 据传每年花费超过2亿美元采购高质量人类撰写内容——从专业作者、学术机构、甚至律师事务所买数据。没错,人类写的东西,正在变成AI时代的"稀土"。
Reddit 在2026年Q1的财报电话会上透露,其API数据许可收入同比增长了340%,主要买家全是AI公司。你十年前随手发的帖子,现在正在被估值数十亿美元的公司竞标。
但花钱买数据只能解决问题的一小部分。因为互联网上AI内容的增长速度,是人类内容增长速度的30倍以上。
今年4月,一篇发表在《Symmetry》期刊的论文从信息论角度给出了一个近乎绝望的推论:任何纯粹的计算系统,如果只有有限的精度、有限的能力、没有外部低熵输入,在经过有限步数之后,一定会发生信息衰减。
换句话说:MAD 不是bug,是数学必然。

解药在哪里?¶
当前最可行的几条路线:
第一,水印和溯源。 Google 和 Meta 在推 AI 内容水印标准(C2PA),让每段AI生成的内容都携带"出生证明"。但问题是,截图、转述、改写都能轻松去掉水印。
第二,人类数据"保护区"。 一些机构在推动建立"人类原创内容认证"体系——类似食品行业的"有机认证"。标着"100%人类创作"的内容,未来可能比AI内容贵几十倍。
第三,更好的筛选机制。 用最强的AI模型来做"数据质检员",过滤掉低质量的合成数据。但这又引出了一个悖论:质检员自己也是AI,谁来质检质检员?
第四,token级别的重采样。 2025年 Zhu 等研究者提出在训练过程中动态调整采样策略,防止模型过度拟合合成数据的统计偏差。技术上可行,但工程复杂度极高。
现实是:没有任何单一方案能彻底解决MAD。最终的答案可能是一套组合拳——水印+认证+筛选+重采样+持续注入新鲜人类数据。
而"持续注入新鲜人类数据"这一条,本质上是在说:人类作者永远不会失业。
你的每一次原创,都是在给AI"续命"¶
听起来很讽刺,但这是真的。
当AI公司烧掉数十亿美元去爬取人类写的每一个字、每一段视频字幕、每一篇学术论文的时候,你随手写的一条原创评论、一篇博客、一段认真的回答,都在为"真实数据"这个日渐干涸的湖泊注入新的水源。
MAD教会我们的是:AI不怕人类不够聪明,怕的是人类不再原创。
只要人类还在认真写作、认真表达、认真生产那些带着真实经验和情感的内容——AI就还有一口"干净的水"可以喝。
否则,它就只能喝自己的泔水。然后疯掉。
这可能是2026年最深刻的科技悖论:人类不再担心被AI取代。该担心的是——AI别被自己取代了。