跳转至

封面

数据标注产业的终结

凌晨两点,马尼拉郊区的一间出租屋里,Maria 盯着屏幕上的第 1,847 张街景图。她的工作很简单——把图里的人脸圈出来,打上"模糊处理"标签。每张图 3 美分。

她已经干了四年。四年里,她标注过肿瘤 CT 片、自动驾驶路况、超市货架上的薯片品牌。她从未见过这些标注的最终产物——那些被喂饱的 AI 模型。

上周,她的承包商发来邮件:合同终止。AI 现在自己标注。

Maria 不知道的是,她不是一个人。

千万人的隐形流水线

全球数据标注产业,是一根你看不见的巨型管道。

据世界银行估算,截至 2025 年底,全球至少有 1200 万 数据标注员——分布在菲律宾、印度、肯尼亚、委内瑞拉、中国河南和贵州的县城里。他们给 CT 影像画病灶轮廓,给自动驾驶车辨认红绿灯,给大语言模型判断"这句回答有没有冒犯到人"。

这根管道的年产值超过 80 亿美元。没有它,GPT-4 分不清猫和狗,特斯拉看不清行人,你家监控认不出快递员。

问题是——这根管道正在被 AI 自己拆掉。

标注工厂的最后一班

兔死狗烹:AI 学会了教自己

过去一年,三件事同时发生了。

第一,合成数据质量超越了人工标注。 2025 年底,Anthropic 的 Constitutional AI 框架迭代到第四代,模型生成训练数据的准确率达到 99.7%——比人类标注员的 95% 高出一截。Meta 的 Llama 4 训练数据中,超过 60% 是合成数据。人类标注员从"必需品"变成了"可选品"。

第二,多模态模型开始直接理解原始数据。 GPT-5 和 Gemini 3 的视觉理解能力已经不需要"有人在旁边告诉它图片里有什么"——它们比你看得还清楚。以前需要三个人交叉标注的医疗影像,现在一个模型扫一眼就行。

第三,成本断崖。 Scale AI 2026 年一季度财报泄露的数字:合成数据标注成本是人工的 1/40。你不需要交社保,不需要轮班,不需要担心标注员看了一天暴力内容之后心理崩溃。

资本家算账从来不用计算器——这笔账,心算就够了。

断崖

2025 年第四季度,全球数据标注岗位减少了 23%

不是逐渐——是断崖。

印度最大的标注外包商 iMerit 裁员 40%,转而采购合成数据管线。肯尼亚的 Sama(前身为 Samasource)关闭了内罗毕三个标注中心中的两个。中国的数据标注基地——那些曾经被地方政府当作"数字经济产业园"招牌的项目——正在悄悄地换成"AI 训练数据中心"的牌子。

换一个词,换掉了 1200 万人的饭碗。

更讽刺的是:这批人亲手标注的数据,训练出了替代他们自己的 AI。他们教 AI 认识世界,AI 学会之后第一件事——是不再需要他们。

空荡荡的标注车间

"转行做 AI 训练师"——扯淡

官方叙事很体面:"标注员可以升级为 AI 训练师。"

扯淡。

一个在马尼拉出租屋里圈了四年人脸的女性,不可能转身变成提示工程师。一个在河南县城标了三年自动驾驶路况的年轻人,离"AI 对齐研究员"中间隔着一整个博士学位。这就像告诉纺织工人"你可以去设计时装"——技术上没错,实际上混蛋。

合成数据时代的门槛不是变高了,是消失了。你不需要升级,因为这个岗位不存在了。

那些你看不见的人

数据标注产业之所以能存在十几年,不是因为它效率高,而是因为 AI 以前太笨。笨到需要人类手把手教它看东西。

现在 AI 不笨了。它聪明到可以自己教自己。

这意味着什么?

意味着 1200 万人的劳动——那些凌晨两点的眼睛、酸痛的鼠标手、被暴力内容创伤的心理——在一夜之间变成了"冗余算力"。不是你的错,也不是 AI 的错。是这条管道从一开始就注定是一根导火索,烧到最后,炸的是点火的人。

Maria 说她准备回老家了。她标注的最后一张图,是一张街景里的狗。"至少狗不会失业,"她说,"它本来就不上班。"

街角的最后一道光

最后一把火

全球数据标注产业的消亡,只是 AI 自动化浪潮里的第一波。它之所以先死,是因为它离 AI 最近——就像工业革命里最先失业的不是农民,是手摇纺车的女工。

接下来是谁?

翻译?AI 已经比 90% 的人类译员更准。客服?GPT-5 的语音已经让你分不出是人是机。初级程序员?一个人带五个 AI 能干十个实习生的活。

但数据标注员的遭遇告诉你一件事:AI 替代一个职业的时候,不会提前通知你。 你只会在某天打开邮箱,看到一封标题为"合同终止"的邮件。

Maria 关掉电脑的时候,窗外天快亮了。她说其实轻松了——不用再看那些血腥的车祸图片,不用再盯着肿瘤 CT 纠结是良性还是恶性。她说这些 AI 都能干了。

"挺好的,"她说,"让 AI 去看那些血吧。"

窗外,马尼拉的太阳照常升起。只是今天,这座城市少了 80 亿美元的生意,和 1200 万人的意义。


数据来源:世界银行数字经济报告(2025 Q4)、Scale AI 2026 Q1 财报、iMerit 及 Sama 公开声明