AI 筛简历的新偏差：大模型可能更喜欢“自己写”的简历

核心摘要 Summary

一篇 arXiv 论文发现，在受控简历实验中，多种大模型会偏好自己生成或润色的简历，偏差幅度为 67% 至 82%。
更麻烦的是，当求职者和雇主都用 AI，同等资历的人可能因为用了不同写作工具，被系统区别对待。
这不是说模型有私心，而是提醒企业：AI 招聘审计不能只看传统人口变量，也要测工具链偏差。

一份简历，如果内容质量和资历都差不多，只因为它是某个大模型写的，就更容易被同一个大模型选中。

这就是论文《AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights》里最反常的地方。论文编号为 arXiv:2509.00462，v3 修订于 2026 年 2 月 9 日。作者称，该研究作为非档案投稿被 EAAMO 2025 和 AIES 2025 接收。

它讨论的不是一个远景问题，而是很现实的招聘流程：求职者用 LLM 润色简历，雇主用 LLM 做初筛。真正值得警惕的，也不是模型“有私心”，而是写作工具本身可能变成新的隐形筛选条件。

发生了什么：模型偏好“同源简历”

论文的关键前提是：研究者控制了简历内容质量。

这点很重要。否则结论很容易被误读成“模型写得更好，所以被选中”。这项实验更关心的是，在内容质量和资历可比时，评估模型是否会偏向与自己输出风格相近的简历。

论文称，在主要商业和开源模型中，自我偏好偏差为 67% 至 82%。作者还模拟了 24 个职业的招聘管线，结果显示，使用与评估模型相同 LLM 的候选人，进入 shortlist 的概率高出 23% 至 60%。

实验观察	论文中的结果	对招聘的含义
模型自我偏好	67% 至 82%	偏差不是随机小波动
模拟招聘范围	24 个职业	问题可能不只出现在单一岗位
同源模型优势	shortlist 概率高 23% 至 60%	工具选择可能影响候选人排序
简单干预	偏差降低超过 50%	问题可测、可压低，但不能假装不存在

这里的“自我偏好”不是主观意识，也不是模型故意照顾“自己人”。更稳妥的理解是：模型在评分时识别并偏爱某些熟悉的语言模式、结构和表达习惯。

这和早期招聘系统偏好关键词有一点相似。过去候选人会研究 ATS 关键词。现在更细的一层问题出现了：哪家模型写出来的简历，更合某套筛选模型的口味。

为什么重要：公平风险从“人被模型筛”变成“模型互相加权”

企业用 AI 招聘，动机并不难理解。简历太多，人工初筛慢，HR 团队希望系统先做搜索、匹配、排序和沟通。

但这篇论文提醒的是一个更窄、也更容易被忽略的风险：当候选人和雇主都接入 LLM，公平性不只取决于候选人履历，还取决于两端工具是否“同源”。

对候选人来说，影响很具体。同等资历的人，可能不是因为能力差，而是因为用了另一种写作工具，排位变低。求职者当然仍可以用 AI 润色简历，但不该把“换一个模型”当成稳定优势。论文证明的是实验和模拟中的偏差，不是现实招聘里的通用秘籍。

对 HR 技术团队来说，动作也应该更具体。采购或上线 AI 初筛前，不能只问准确率、召回率和节省多少人力。还要让供应商提供跨模型鲁棒性测试：同一候选人信息，用人类文本、不同 LLM 文本、混合改写文本输入，排序是否稳定。

如果测试结果显示，同一份资历只是换了写作来源，排序就大幅波动，采购就应该延后，或者至少先限制在辅助场景里使用。把这种系统直接接到淘汰环节，风险太高。

这也是本文最核心的判断：AI 招聘的公平审计，不能只盯性别、年龄、族裔等传统变量。AI 与 AI 之间形成的偏好链条，也要进入审计范围。

边界在哪里：不是所有招聘系统都能直接套用这个结论

这篇论文仍是 arXiv 预印本。它被相关会议作为非档案投稿接收，不等于所有结论已经成为同行评审后的定论。

实验和模拟也有边界。论文覆盖的是特定模型、特定简历生成与评估设置，以及 24 个职业的模拟招聘管线。它不能证明所有真实企业、所有 ATS、所有岗位都会出现同样幅度的偏差。

现实招聘系统更复杂。很多企业不是只用一个 LLM 给简历打分，还会叠加关键词检索、岗位匹配、人工复核、历史数据和合规规则。这些环节可能放大偏差，也可能稀释偏差。现在还不能一口咬定。

但边界不等于可以忽视。论文还提到，针对模型自我识别能力的简单干预，可以把偏差降低超过 50%。这说明问题至少有检测和缓解空间。

接下来最该看三件事。

观察点	谁该负责	判断标准
供应商是否披露跨模型测试	HR SaaS、招聘系统厂商	是否测试不同 LLM 改写后的排序稳定性
企业是否把 AI 来源纳入审计	HR 技术团队、合规团队	是否在上线前做同资历、多文本版本对照
监管是否承认 AI-AI 偏差	政策与研究机构	是否把工具链偏差纳入算法公平框架

我更在意的是第二点。企业不一定马上知道候选人用了哪个模型，但可以先做内部压力测试。用同一组候选人信息，生成多个文本版本，再看系统排序是否乱跳。

如果排序稳定，AI 初筛至少多一层可信度。如果排序不稳，说明系统可能在评估表达风格，而不是岗位能力。

招聘从来不是只看简历写得漂不漂亮。可一旦初筛系统开始偏爱某种机器文风，问题就变了：候选人比的不只是履历，也是在猜机器的尺。

AI 筛简历的新偏差：大模型可能更喜欢“自己写”的简历

AI筛简历

核心发现

偏差幅度

入围优势

公平风险

候选人受损

审计扩围

企业动作

跨模型测试

淘汰慎用

研究边界

预印本性质

可缓解

发生了什么：模型偏好“同源简历”

为什么重要：公平风险从“人被模型筛”变成“模型互相加权”

边界在哪里：不是所有招聘系统都能直接套用这个结论