AI模型正在被自己"毒死"¶

你有没有想过一个问题：ChatGPT 每天在给成千上万的人写文章、写代码、写作文。这些内容，最终流向了哪里？

流回了互联网。然后被下一代 AI 模型抓取、训练、吞下。

这不是循环利用。这是AI吃自己的vomit。

2024年，牛津和剑桥的研究者给这个过程取了一个让人毛骨悚然的名字：Model Autophagy Disorder（模型自噬紊乱症），简称 MAD。名字致敬了疯牛病——同样是吃自己的产物，同样会传染，同样致命。

两年后的今天，MAD 不再是论文里的假设。它正在变成AI产业最真实的生存危机。

疯牛病的AI版本¶

疯牛病的原理其实很简单：把牛的肉骨粉喂给牛吃，朊病毒在食物链里循环积累，最终摧毁牛的大脑。

AI的"疯牛病"也是同样的逻辑。

当 GPT-5 用 GPT-4 生成的数据训练，GPT-6 再用 GPT-5 的输出来训练——每一次循环，模型都离"真实世界"更远一步。

研究表明，经过3到5代的递归训练后，大模型会出现三种症状：尾部坍塌（罕见知识消失）、模式坍缩（所有输出趋同）、误差放大（小错误变成大错误）。

2024年 Shumailov 团队在《Nature》发表的实验中，用 OPT-125M 模型在自身生成的文本上做微调。只需几代，模型就开始吐出重复的、无意义的、语法崩坏的句子。就像一个作家被关在房间里，只能反复读自己写的段落——最终疯掉了。

服务器机房的废弃与警示

牛津的 Alemohammad 团队把 AI 的自噬分成了三种模式：

第一种：完全自食（Fully Synthetic）——模型只吃前代AI生成的数据，没有一丁点人类写的东西。这是最快的死亡螺旋。每迭代一代，语言多样性就下降15%-20%，罕见词汇率先消失，最后输出变成一堆统计上"最安全"但毫无信息量的废话。

第二种：混着吃（Synthetic Augmentation）——一部分真实数据加一部分AI数据。看起来聪明，实际上只是死得慢一点。因为生成数据的量总比真实数据大，几代之后，AI内容的比例就会超过临界点，开始主导训练。结果是"延迟性MAD"——你被骗了，但它早晚要来。

第三种：吃新鲜的（Fresh Data Loops）——每一代都喂全新的、人类创造的原始数据。这是目前唯一被验证有效的解法。

但问题来了：新鲜的人类数据，还够吃多久？

2026年最让人不安的统计是这一个：目前互联网上大约57%的长文本内容已经是AI生成的。

Reddit、微博、知乎、Medium——每一秒钟都有AI在批量生产"看起来像人写的"内容。这些内容带着微妙的统计偏差、轻微的语义漂移、看似正确实则空洞的表述，像垃圾食品一样涌入互联网的每个角落。

"Dead Internet Theory"（互联网已死理论）曾经只是一个网络阴谋论。2026年，它变成了数据科学界的共识危机。

更可怕的是：你分不清什么是人写的，什么是AI写的。AI检测工具的正确率已经跌到了60%以下——约等于扔硬币。因为你用的检测器本身也是AI，而新一代的AI生成内容专门训练过"如何骗过检测器"。

这是一个完美的莫比乌斯环：AI生成内容骗过AI检测器，然后被下一代AI当作"人类数据"吃下去。

程序员面对被AI污染的训练数据

Google DeepMind 和 Anthropic 在2026年初各自发布了内部数据治理白皮书，核心主张都是同一句话："人类来源数据是稀缺战略资源"。

OpenAI 据传每年花费超过2亿美元采购高质量人类撰写内容——从专业作者、学术机构、甚至律师事务所买数据。没错，人类写的东西，正在变成AI时代的"稀土"。

Reddit 在2026年Q1的财报电话会上透露，其API数据许可收入同比增长了340%，主要买家全是AI公司。你十年前随手发的帖子，现在正在被估值数十亿美元的公司竞标。

但花钱买数据只能解决问题的一小部分。因为互联网上AI内容的增长速度，是人类内容增长速度的30倍以上。

今年4月，一篇发表在《Symmetry》期刊的论文从信息论角度给出了一个近乎绝望的推论：任何纯粹的计算系统，如果只有有限的精度、有限的能力、没有外部低熵输入，在经过有限步数之后，一定会发生信息衰减。

换句话说：MAD 不是bug，是数学必然。

数据中心密布的服务器阵列

当前最可行的几条路线：

第一，水印和溯源。 Google 和 Meta 在推 AI 内容水印标准（C2PA），让每段AI生成的内容都携带"出生证明"。但问题是，截图、转述、改写都能轻松去掉水印。

第二，人类数据"保护区"。 一些机构在推动建立"人类原创内容认证"体系——类似食品行业的"有机认证"。标着"100%人类创作"的内容，未来可能比AI内容贵几十倍。

第三，更好的筛选机制。 用最强的AI模型来做"数据质检员"，过滤掉低质量的合成数据。但这又引出了一个悖论：质检员自己也是AI，谁来质检质检员？

第四，token级别的重采样。 2025年 Zhu 等研究者提出在训练过程中动态调整采样策略，防止模型过度拟合合成数据的统计偏差。技术上可行，但工程复杂度极高。

现实是：没有任何单一方案能彻底解决MAD。最终的答案可能是一套组合拳——水印+认证+筛选+重采样+持续注入新鲜人类数据。

而"持续注入新鲜人类数据"这一条，本质上是在说：人类作者永远不会失业。

听起来很讽刺，但这是真的。

当AI公司烧掉数十亿美元去爬取人类写的每一个字、每一段视频字幕、每一篇学术论文的时候，你随手写的一条原创评论、一篇博客、一段认真的回答，都在为"真实数据"这个日渐干涸的湖泊注入新的水源。

MAD教会我们的是：AI不怕人类不够聪明，怕的是人类不再原创。

只要人类还在认真写作、认真表达、认真生产那些带着真实经验和情感的内容——AI就还有一口"干净的水"可以喝。

否则，它就只能喝自己的泔水。然后疯掉。

这可能是2026年最深刻的科技悖论：人类不再担心被AI取代。该担心的是——AI别被自己取代了。