4TB数据,逾4万名AI外包人员,平均每人2到5分钟的干净朗读语音,再配上护照或驾照扫描、自拍视频。
这不是普通的“账号泄露”。2026年4月4日,勒索组织 Lapsus$ 声称发布 Mercor 数据。需要说清楚:目前口径来自勒索组织发布和泄露样本索引,并非 Mercor 官方确认。
但如果索引描述属实,真正反常的地方已经摆在台面上:AI训练产业把一段低价劳动,顺手做成了可长期调用的身份素材库。
密码泄了可以改。声音不行。
危险不在4TB,而在语音、证件、自拍视频被绑到一起
大规模数据泄露早就不新鲜。邮箱、密码、手机号、地址,黑市里一抓一把。
这次更麻烦的是组合。
| 数据类型 | 据称包含内容 | 风险变化 |
|---|---|---|
| 身份文件 | 护照或驾照扫描 | 证明“这个人是谁” |
| 自拍视频 | 面部与活体材料 | 增加远程核验绕过素材 |
| 干净语音 | 安静环境朗读,约2到5分钟 | 降低声音克隆门槛 |
| 数据绑定 | 同一人、同一行记录 | 攻击者不用再拼图 |
过去很多泄露只有录音,或者只有证件。录音难以对应真实身份,证件缺少可调用的声音。
Mercor 这类外包采集流程的风险在于,它把两件事合并了:真实身份和声音生物特征,放进同一套入职、验证、任务交付管道。
这就从“资料泄露”变成了“身份入口泄露”。
原文提到,现成语音克隆工具对干净参考音频的要求已经降到十几秒量级。Mercor 样本据称平均2到5分钟,远超这个门槛。
不能说有了声音就一定能盗钱。现实攻击还需要账户信息、流程漏洞、社工话术和目标配合。
但攻击门槛会显著下降。风控、客服、HR、财务、亲属,都会更难判断电话那头到底是不是本人。
最该紧张的,是两类人
受影响对象很清楚。
一类是参与过AI数据标注、语音录制、身份验证的外包人员。尤其是上传过证件、自拍视频、朗读音频的人。
他们要做的不是“等等看平台怎么说”,而是先降低可被调用的入口:停用银行声纹验证,至少别让它成为关键验证因素;给家人和财务联系人设置口头口令;删掉能被公开索引的公开视频、播客、会议录音;如果平台允许删除或重录声纹,尽快处理。
另一类是依赖电话、声纹或远程身份核验的金融、HR和安全负责人。
他们该做的也不复杂:把声纹从“可信身份凭证”降级成“辅助信号”;涉及工资账户变更、付款、解锁、理赔的流程,必须增加回拨、二次确认、设备校验或人工复核。不要再把“声音像本人”当成足够强的证据。
| 受影响对象 | 直接风险 | 应该立刻做的事 |
|---|---|---|
| AI外包人员 | 声音、证件、自拍视频被组合冒用 | 停用声纹验证,设置家庭/财务口令,删除公开音频,处理平台声纹 |
| 银行与金融风控 | 部分电话验证链条被削弱 | 降低声纹权重,增加回拨和多因素验证 |
| HR与财务团队 | 冒充员工改工资账户、催转账 | 敏感变更必须走书面确认和二次审批 |
| 保险与远程客服 | 理赔、解锁、身份核验更易受冲击 | 对高风险请求加人工复核 |
这里有个现实约束:不是所有银行都依赖声纹,也不是所有声纹系统都会被轻易绕过。部分美英银行仍把声纹作为验证因素之一,但它通常只是验证链条的一环。
问题在于,一环弱了,整条链都会变脆。尤其当攻击者同时拿到证件、自拍视频和声音样本时,社工骗局不再只靠话术,而是多了材料。
接下来最该观察三件事。
Mercor 是否确认泄露范围、通知受影响承包者;相关平台是否说明证件、自拍视频、声纹的保存期限和删除机制;金融与HR系统是否下调声纹在远程验证里的权重。
如果这些问题没有答案,所谓“安全修复”多半只是补服务器,不是补责任链。
问题不只在黑客,还在AI数据采集的激励
我更在意的不是 Lapsus$,而是这类AI数据采集的默认逻辑。
平台需要便宜、干净、可标注的人类数据。外包人员需要接单。于是“读几段文字”“做一次身份验证”“上传证件”被包装成低门槛任务。
每一步看着都合理。合在一起,就变成永久生物识别资产。
天下熙熙,皆为利来。放在这里很刺眼:训练数据的收益归平台、客户和模型生态,泄露后的长期身份成本却落到承包者身上。
有人会说,平台也要防欺诈,要确认承包者身份,要保证语音质量。这话成立。AI训练市场确实需要核验,不然刷单、代录、数据污染都会泛滥。
但合理核验不等于无限期持有。更不等于把证件、自拍视频、干净声纹放在同一套数据库里长期保存。
成熟系统应该默认少采集、分离存储、短周期删除、可撤回授权。生物识别材料不是普通附件,不能按“项目资料”随手归档。
这也是我不太买账的地方:很多平台把外包人员当成临时劳动力,却向他们索取接近正式雇员、甚至更高敏感度的身份材料。权利很薄,数据很重。
这不是Mercor一家公司的孤立问题。它更像AI训练产业的底层惯性:为了拿到更便宜的数据,把风险拆成无数个小任务,再分摊给议价能力最低的人。
铁路、电力、报业、互联网平台都走过类似阶段。技术扩张早期,红利先被中心化组织拿走,事故成本常常先落到边缘劳动者身上。今天不完全一样,但权力结构很像。
模型看着更强,产品反而更虚。因为底座里埋着一群人的声音、脸和证件。
一旦泄露,账单不会自动寄给训练红利的受益者。它会先寄给那些当初为几十美元任务读完几段文本的人。
