跳转至

电话那头谁在哭?

封面

2024年3月,广州。赵阿姨接到一通电话。

那头是她儿子的声音——在哭。说撞了人,被扣住了,要五十万私了,别报警。声音一模一样,连呼吸的节奏、喊"妈"的腔调都分毫不差。

赵阿姨颤抖着转了账。三个小时后,真儿子下班回家,一脸茫然。

五十万,买了一张 AI 画的嘴。

这不是科幻片。这是去年中国 AI 声音诈骗案中的一件。而类似的案子,正在以每个月三位数的速度增长。

要偷你的声音,三秒就够了

ElevenLabs、OpenVoice、Fish Audio——这些名字你可能没听过,但它们正在定义一个全新的犯罪产业链。

克隆一个人的声音,需要多少原始音频?三到十秒。

AI语音克隆服务器

你那段朋友圈里的自拍视频、你在小红书上的探店vlog、你在抖音里唱的那两句歌——犯罪分子拿来就能用。不需要黑客技术,不需要破解密码。你主动发的。

输入三段音频进模型,设置情绪参数("恐惧""哭泣""急促"),点击生成。三十秒后,你的声音就能说出任何话。

不是类似。是一模一样。声纹识别都分不出真假。

微软 2025 年测试过主流声纹验证系统:面对最新的 AI 声音克隆,误判率高达 46%。换句话说,近一半的 AI 伪造声音能骗过身份验证。

银行说"声音就是密码"。现在密码被公开兜售了。

你天天在给骗子喂素材

打开你的抖音。打开你的朋友圈。打开你的视频号。

每一条你露脸说话的短视频,都是送给诈骗犯的免费午餐。

社交媒体素材泄露

骗子的手法已经工业化流水线化了:

第一步:收割声纹。 爬取目标及其亲属的公开短视频、直播回放、语音消息。

第二步:情感画像。 用大模型分析社交动态——谁最近出差了、谁家孩子刚上大学、谁跟谁闹过矛盾——找到最佳下手时机。

第三步:克隆拨打。 合成恐慌声音,专挑深夜或工作时间打给家属。

第四步:封闭施压。 话术设计精妙——"别报警""别告诉别人""半小时内必须转账"。

这不是诈骗。这是社会工程学 + AI 的精准外科手术。

2025 年深圳破获的一个团伙,三个月内用上述手法做了一千多单,涉案金额超过八千万。落网时,他们的 AI 声音库里有超过两万段克隆音频。

两万个人,不知道自己已经"说过"那些话。

为什么警察也头疼

传统反诈靠三样:劝阻、溯源、冻结。

AI 声音诈骗把这三样都击穿了。

劝阻失灵。 受害人听到的是"亲人声音",银行柜员劝、社区民警劝,她不听——"我听得出我儿子的声音。"

溯源无门。 骗子用境外虚拟号 + 多层 VPN + 加密货币洗钱。从克隆到收钱,全程数字,不留物理指纹。

冻结太慢。 钱一到账,三分钟内通过十几层嵌套钱包拆分转移。等警察走完审批流程,钱早到了东南亚某个赌场的账户里。

面对AI诈骗的焦虑

更可怕的是,AI 诈骗的门槛正在断崖式下降。

2024 年还需要一台 A100 显卡才能跑的语音克隆模型,2026 年在一台 iPhone 上就能流畅运行。开源模型满天飞,任何一个会下载 App 的人都能成为"声音造假师"。

这不是精英犯罪。这是全民可参与的新型犯罪。

跟家人定一个暗号

技术带来的漏洞,技术暂时补不上。但人有办法。

第一,家庭暗号。 跟家人约定一个只有你们知道的词。任何一个声称是家人的紧急来电,先问暗号。答不出——挂。

第二,回拨确认。 不要相信来电显示的号码。AI 连号码都能伪造。挂了,用你自己存的号码打回去。

第三,社交静音。 把社交媒体设为仅好友可见。陌生人不需要听你说话。你每一条公开视频都是送出去的声纹样本。

第四,保持怀疑。 如果电话那头在哭、在催、在让你别报警——越是这样,越要报警。真正的家人不会阻止你寻求帮助。

写在最后

声音曾经是人与人之间最牢不可破的信任凭证。你闭着眼也能认出妈妈的声音,隔着电话也能听出孩子的情绪。

AI 偷走了这份信任,而且是不可逆的。

未来五年,任何一台智能手机都能完美伪造任何一个人的声音。到那时候,电话将不再是信任工具,而是一种需要反复验证的陌生人信号。

赵阿姨跟我说过一句话,至今想起来后背发凉:

"那个声音就是我儿子。一模一样。连哭的间隙喊'妈'的那种无助,都一模一样。"

技术的终点,是让人不再相信自己的耳朵。

这不是科幻。这是 2026。