一份简历,如果内容质量和资历都差不多,只因为它是某个大模型写的,就更容易被同一个大模型选中。

这就是论文《AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights》里最反常的地方。论文编号为 arXiv:2509.00462,v3 修订于 2026 年 2 月 9 日。作者称,该研究作为非档案投稿被 EAAMO 2025 和 AIES 2025 接收。

它讨论的不是一个远景问题,而是很现实的招聘流程:求职者用 LLM 润色简历,雇主用 LLM 做初筛。真正值得警惕的,也不是模型“有私心”,而是写作工具本身可能变成新的隐形筛选条件。

发生了什么:模型偏好“同源简历”

论文的关键前提是:研究者控制了简历内容质量。

这点很重要。否则结论很容易被误读成“模型写得更好,所以被选中”。这项实验更关心的是,在内容质量和资历可比时,评估模型是否会偏向与自己输出风格相近的简历。

论文称,在主要商业和开源模型中,自我偏好偏差为 67% 至 82%。作者还模拟了 24 个职业的招聘管线,结果显示,使用与评估模型相同 LLM 的候选人,进入 shortlist 的概率高出 23% 至 60%。

实验观察论文中的结果对招聘的含义
模型自我偏好67% 至 82%偏差不是随机小波动
模拟招聘范围24 个职业问题可能不只出现在单一岗位
同源模型优势shortlist 概率高 23% 至 60%工具选择可能影响候选人排序
简单干预偏差降低超过 50%问题可测、可压低,但不能假装不存在

这里的“自我偏好”不是主观意识,也不是模型故意照顾“自己人”。更稳妥的理解是:模型在评分时识别并偏爱某些熟悉的语言模式、结构和表达习惯。

这和早期招聘系统偏好关键词有一点相似。过去候选人会研究 ATS 关键词。现在更细的一层问题出现了:哪家模型写出来的简历,更合某套筛选模型的口味。

为什么重要:公平风险从“人被模型筛”变成“模型互相加权”

企业用 AI 招聘,动机并不难理解。简历太多,人工初筛慢,HR 团队希望系统先做搜索、匹配、排序和沟通。

但这篇论文提醒的是一个更窄、也更容易被忽略的风险:当候选人和雇主都接入 LLM,公平性不只取决于候选人履历,还取决于两端工具是否“同源”。

对候选人来说,影响很具体。同等资历的人,可能不是因为能力差,而是因为用了另一种写作工具,排位变低。求职者当然仍可以用 AI 润色简历,但不该把“换一个模型”当成稳定优势。论文证明的是实验和模拟中的偏差,不是现实招聘里的通用秘籍。

对 HR 技术团队来说,动作也应该更具体。采购或上线 AI 初筛前,不能只问准确率、召回率和节省多少人力。还要让供应商提供跨模型鲁棒性测试:同一候选人信息,用人类文本、不同 LLM 文本、混合改写文本输入,排序是否稳定。

如果测试结果显示,同一份资历只是换了写作来源,排序就大幅波动,采购就应该延后,或者至少先限制在辅助场景里使用。把这种系统直接接到淘汰环节,风险太高。

这也是本文最核心的判断:AI 招聘的公平审计,不能只盯性别、年龄、族裔等传统变量。AI 与 AI 之间形成的偏好链条,也要进入审计范围。

边界在哪里:不是所有招聘系统都能直接套用这个结论

这篇论文仍是 arXiv 预印本。它被相关会议作为非档案投稿接收,不等于所有结论已经成为同行评审后的定论。

实验和模拟也有边界。论文覆盖的是特定模型、特定简历生成与评估设置,以及 24 个职业的模拟招聘管线。它不能证明所有真实企业、所有 ATS、所有岗位都会出现同样幅度的偏差。

现实招聘系统更复杂。很多企业不是只用一个 LLM 给简历打分,还会叠加关键词检索、岗位匹配、人工复核、历史数据和合规规则。这些环节可能放大偏差,也可能稀释偏差。现在还不能一口咬定。

但边界不等于可以忽视。论文还提到,针对模型自我识别能力的简单干预,可以把偏差降低超过 50%。这说明问题至少有检测和缓解空间。

接下来最该看三件事。

观察点谁该负责判断标准
供应商是否披露跨模型测试HR SaaS、招聘系统厂商是否测试不同 LLM 改写后的排序稳定性
企业是否把 AI 来源纳入审计HR 技术团队、合规团队是否在上线前做同资历、多文本版本对照
监管是否承认 AI-AI 偏差政策与研究机构是否把工具链偏差纳入算法公平框架

我更在意的是第二点。企业不一定马上知道候选人用了哪个模型,但可以先做内部压力测试。用同一组候选人信息,生成多个文本版本,再看系统排序是否乱跳。

如果排序稳定,AI 初筛至少多一层可信度。如果排序不稳,说明系统可能在评估表达风格,而不是岗位能力。

招聘从来不是只看简历写得漂不漂亮。可一旦初筛系统开始偏爱某种机器文风,问题就变了:候选人比的不只是履历,也是在猜机器的尺。