一份简历,如果内容质量和资历都差不多,只因为它是某个大模型写的,就更容易被同一个大模型选中。
这就是论文《AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights》里最反常的地方。论文编号为 arXiv:2509.00462,v3 修订于 2026 年 2 月 9 日。作者称,该研究作为非档案投稿被 EAAMO 2025 和 AIES 2025 接收。
它讨论的不是一个远景问题,而是很现实的招聘流程:求职者用 LLM 润色简历,雇主用 LLM 做初筛。真正值得警惕的,也不是模型“有私心”,而是写作工具本身可能变成新的隐形筛选条件。
发生了什么:模型偏好“同源简历”
论文的关键前提是:研究者控制了简历内容质量。
这点很重要。否则结论很容易被误读成“模型写得更好,所以被选中”。这项实验更关心的是,在内容质量和资历可比时,评估模型是否会偏向与自己输出风格相近的简历。
论文称,在主要商业和开源模型中,自我偏好偏差为 67% 至 82%。作者还模拟了 24 个职业的招聘管线,结果显示,使用与评估模型相同 LLM 的候选人,进入 shortlist 的概率高出 23% 至 60%。
| 实验观察 | 论文中的结果 | 对招聘的含义 |
|---|---|---|
| 模型自我偏好 | 67% 至 82% | 偏差不是随机小波动 |
| 模拟招聘范围 | 24 个职业 | 问题可能不只出现在单一岗位 |
| 同源模型优势 | shortlist 概率高 23% 至 60% | 工具选择可能影响候选人排序 |
| 简单干预 | 偏差降低超过 50% | 问题可测、可压低,但不能假装不存在 |
这里的“自我偏好”不是主观意识,也不是模型故意照顾“自己人”。更稳妥的理解是:模型在评分时识别并偏爱某些熟悉的语言模式、结构和表达习惯。
这和早期招聘系统偏好关键词有一点相似。过去候选人会研究 ATS 关键词。现在更细的一层问题出现了:哪家模型写出来的简历,更合某套筛选模型的口味。
为什么重要:公平风险从“人被模型筛”变成“模型互相加权”
企业用 AI 招聘,动机并不难理解。简历太多,人工初筛慢,HR 团队希望系统先做搜索、匹配、排序和沟通。
但这篇论文提醒的是一个更窄、也更容易被忽略的风险:当候选人和雇主都接入 LLM,公平性不只取决于候选人履历,还取决于两端工具是否“同源”。
对候选人来说,影响很具体。同等资历的人,可能不是因为能力差,而是因为用了另一种写作工具,排位变低。求职者当然仍可以用 AI 润色简历,但不该把“换一个模型”当成稳定优势。论文证明的是实验和模拟中的偏差,不是现实招聘里的通用秘籍。
对 HR 技术团队来说,动作也应该更具体。采购或上线 AI 初筛前,不能只问准确率、召回率和节省多少人力。还要让供应商提供跨模型鲁棒性测试:同一候选人信息,用人类文本、不同 LLM 文本、混合改写文本输入,排序是否稳定。
如果测试结果显示,同一份资历只是换了写作来源,排序就大幅波动,采购就应该延后,或者至少先限制在辅助场景里使用。把这种系统直接接到淘汰环节,风险太高。
这也是本文最核心的判断:AI 招聘的公平审计,不能只盯性别、年龄、族裔等传统变量。AI 与 AI 之间形成的偏好链条,也要进入审计范围。
边界在哪里:不是所有招聘系统都能直接套用这个结论
这篇论文仍是 arXiv 预印本。它被相关会议作为非档案投稿接收,不等于所有结论已经成为同行评审后的定论。
实验和模拟也有边界。论文覆盖的是特定模型、特定简历生成与评估设置,以及 24 个职业的模拟招聘管线。它不能证明所有真实企业、所有 ATS、所有岗位都会出现同样幅度的偏差。
现实招聘系统更复杂。很多企业不是只用一个 LLM 给简历打分,还会叠加关键词检索、岗位匹配、人工复核、历史数据和合规规则。这些环节可能放大偏差,也可能稀释偏差。现在还不能一口咬定。
但边界不等于可以忽视。论文还提到,针对模型自我识别能力的简单干预,可以把偏差降低超过 50%。这说明问题至少有检测和缓解空间。
接下来最该看三件事。
| 观察点 | 谁该负责 | 判断标准 |
|---|---|---|
| 供应商是否披露跨模型测试 | HR SaaS、招聘系统厂商 | 是否测试不同 LLM 改写后的排序稳定性 |
| 企业是否把 AI 来源纳入审计 | HR 技术团队、合规团队 | 是否在上线前做同资历、多文本版本对照 |
| 监管是否承认 AI-AI 偏差 | 政策与研究机构 | 是否把工具链偏差纳入算法公平框架 |
我更在意的是第二点。企业不一定马上知道候选人用了哪个模型,但可以先做内部压力测试。用同一组候选人信息,生成多个文本版本,再看系统排序是否乱跳。
如果排序稳定,AI 初筛至少多一层可信度。如果排序不稳,说明系统可能在评估表达风格,而不是岗位能力。
招聘从来不是只看简历写得漂不漂亮。可一旦初筛系统开始偏爱某种机器文风,问题就变了:候选人比的不只是履历,也是在猜机器的尺。
