
AI的数据盛宴结束了¶
2026年5月的一个深夜,某头部AI公司的数据中心里,工程师盯着监控面板,说了一句让整个会议室沉默的话:
"没数据了。"
不是没算力,不是没钱,不是没人才。
是互联网被吃光了。
三年时间,全人类几十年的数字产出,被几家公司的大模型吞得干干净净。Reddit 吃完了,Wikipedia 吃完了,GitHub 吃完了,Common Crawl 反复嚼了不知道多少遍。现在,连 Stack Overflow 的二手问答都是稀缺资源了。
AI 的数据盛宴,正式散场。
三年吃光人类二十年¶
2018 年,GPT-1 用了约 7000 本书的数据。
2023 年,GPT-4 的训练数据量没有公布——但业内有共识:它可能已经吃掉了近乎所有公开可访问的高质量英文文本。
到了 2026 年,情况变成了这样:你搜到的每一篇博客、每一条推文、每一段论坛讨论,大概率已经被几十个模型翻来覆去地"学习"过了。
AI 不是在学习,是在消化。
Scaling Law 告诉我们:模型性能和数据规模呈幂律关系。每提升 10% 的性能,数据需求可能翻倍。
但互联网的增长是线性的。
人类一年产出的文本量,远远跟不上大模型对数据的胃口。
数据库底朝天了。

网站反击了,互联网正在关门¶
以前我们觉得互联网是开放的。
AI 公司让所有人心生警惕。
Reddit 2024 年签下了每年 6000 万美元的数据授权协议——给 Google。其他 AI 公司?付费,否则别想爬。
《纽约时报》起诉 OpenAI 和微软,索赔数十亿美元。不是小打小闹,是要把之前的"免费午餐"连本带利讨回来。
X(前 Twitter)大幅收紧 API,埃隆·马斯克直接骂 AI 公司是"数据寄生虫"。
Getty Images 在伦敦高等法院起诉 Stability AI——你用我的图训练模型,然后用模型抢我的生意?
这就是数据冷战。
一边是 AI 公司疯狂寻找新的数据来源,另一边是整个互联网竖起高墙。
开源互联网的黄金时代,终结于 AI 的胃口太大。
谁有数据,谁就是下一个巨头¶
以前我们说"数据是新的石油"——那会儿还是比喻。
现在不比喻了。数据就是新的石油。
谁手里握着未经 AI 训练的"处女数据",谁就成了被所有人追捧的对象:
- 大型医院:几十年的病历记录,未经使用
- 律所:上百万份判决书、合同、法律意见
- 银行:交易记录、信用数据、风控模型
- 政府:档案、统计、地理信息
这些数据不是放在网上的,它们被锁在服务器里,锁在保密协议里,锁在防火墙后面。
能拿到这些数据的 AI 公司,模型质量直接跃升一个台阶。
拿不到的,只能继续靠公开数据缝缝补补——所有人都在吃别人嚼过的馍。

合成数据:自己喂自己,然后变傻¶
开源数据不够?那就造假的呗。
所谓的"合成数据"——让 AI 自己生成训练数据,然后喂给下一代 AI——听起来是个完美的闭环。
但问题来了。
2023 年,牛津、剑桥和帝国理工的研究者发表了一篇论文,标题很直白:《递归训练会导致模型崩溃》(Model Collapse)。
简单说就是:AI 吃 AI 产出的数据,就像复印机复印复印件。第一遍还行,第十遍就糊成一团了。
多样性消失,错误被放大,罕见信息被抹平。
到 2026 年,这个问题不但没解决,反而更严重了。因为合成数据用得越多,模型"变傻"的速度越快。
几个开源模型社区已经出现了一个诡异的现象:用 GPT-4 输出训练的模型,在数学推理上比不用合成数据的模型更差。
AI 不是不能吃 AI,是不能只吃 AI。
就像一个孩子如果只吃自己吐出来的东西,活不了多久。
数据壁垒:赢家通吃的终局¶
数据枯竭的后果不是"所有人都停下来"。
是有人停下,有人加速。
Google 有 YouTube 的独家数据,有 Gmail 的用户行为,有搜索查询的实时流。
Meta 有 Instagram 和 Facebook 上几十亿人的社交图谱,有 WhatsApp 的对话模式。
字节跳动有抖音的推荐数据、用户偏好、内容消费行为,体量惊人。
这些公司不需要爬互联网,他们自己就是互联网。
开新模型的初创公司?要么找这些巨头买数据授权,要么等死。
OpenAI 最近的举措说明了一切:疯狂签独家数据协议,花几亿美元买数据访问权,甚至考虑自己建内容平台——因为 Google 和 Meta 不会把核心数据卖给竞争对手。
AI 的下一阶段竞争,比的不是算法,不是算力,甚至不是钱。
比的是谁手里还有没被吃过的数据。
互联网的黄昏¶
最讽刺的事情是:
互联网诞生于开放精神。Tim Berners-Lee 创造 Web 的时候,想的是一种自由分享知识的工具。
三十年后,互联网最值钱的东西——数据——正被几家公司用爬虫全部吸走,然后锁进付费墙和授权协议里。
AI 正在杀死那个让它诞生的开放互联网。
当每一篇 Reddit 帖子、每一条推文、每一段 YouTube 评论都变成了商业资产,谁还愿意免费创作?
未来的互联网会分成两层:
- 免费层:AI 生成的垃圾内容循环繁殖,越来越蠢
- 付费层:人类原创内容,被严格保护,按 Token 收费,喂给最新的大模型
你的每一次发言、每一条评论、每一张自拍,都可能成为某个 AI 模型的养料。
而你还什么都没收到。
数据盛宴结束了。下一顿饭,你得自己付钱。