AI答疑赢过法学教授75%：教授没失业，低质量答疑先露馅

核心摘要 Summary

斯坦福法学院Julian Nyarko团队做了一项盲评：16名美国法学教授在近3000次匿名配对中，75%更偏好AI生成的合同法课后答疑。
研究场景很窄，不等于AI全面超过法学教授；但它至少说明，高频、标准化、解释型答疑已经被AI打到痛处。
真正的问题从“AI能不能答”转向“学校和平台怎么部署、怎么负责、怎么防依赖”。

16名美国法学教授，40个合同法学生问题，近3000次匿名配对评估。

结果有点刺眼：在不知道答案作者是谁的情况下，教授们有75%的时候更偏好AI写的合同法答疑，而不是同行教授写的答案。

别把它读成“AI全面超过法学教授”。这项研究看的是合同法课后答疑、office hours那类场景。不是法庭辩护，不是论文指导，也不是整套法学教育。

但也别轻描淡写。法律不是选择题，合同法答疑常常要解释规则、例外、模糊性和竞争性论证。AI能在这里赢，说明它击中的不是知识点记忆，而是解释质量、稳定性和可获得性。

这项研究到底测了什么

研究由斯坦福法学院教授Julian Nyarko领导，合作者来自耶鲁、NYU、芝加哥大学等机构。论文题目是《Law Professors Prefer AI Over Peer Answers》。

核心设置很简单：把AI答案和人类法学教授答案匿名放在一起，让法学教授做配对评估。

项目	研究设置	结果或含义
评估者	16名美国法学教授	样本不大，但评估者是专业同行
问题	40个合同法学生问题	对应课后答疑、office hours场景
对比方式	近3000次匿名配对	评估者不知道答案来自AI还是教授
偏好结果	AI vs 人类同行答案	AI赢下75%
风险标记	可能误导或有害	AI为3.5%，人类为12%

最后一行最容易被误读。

3.5%不是“AI没有幻觉”。它只说明，在这个受控实验里，AI答案被教授标为可能误导或有害的比例更低。人类答案被标为12%，也不等于教授更危险，只能说明人类答疑同样会有遗漏、含混和误导。

研究作者的表述也很克制：他们不主张全面采用AI导师。重点应从“AI能不能给出高质量答案”，转到“怎么负责任地部署”。

还有几个限制不能跳过。

这项研究只评估答案质量，不评估长期学习效果。16名教授也不是整个法学教育体系。场景限定在合同法答疑，不代表所有课程、所有法学院、所有法律服务都适用。

公开线索里也没有足够方法细节让读者判断所有变量，比如具体AI模型、教授答案生成条件、评分标准的细分维度。结论可以重视，但不能拿来做一锤定音的行业宣判。

为什么这事让法学院不舒服

法律教育一直有一种体面：真正的训练来自人，来自老师对案例的拆解，来自课外答疑里那些细碎的追问。

这套体面没有倒。松了一块。

AI赢的不是教授的全部工作。它赢的是一种高频、重复、解释型、又很消耗教师时间的工作：学生问一个概念怎么理解，一个规则怎么适用，一个案例为什么两边都能讲。

人类老师当然能答好。问题是，人不总在线，不总稳定，也不总愿意把同一个问题讲第十遍。

AI没有办公室时间。也没有情绪成本。

这才是教育技术最锋利的地方。它不一定先替代最好的老师，而是先替代学生实际能拿到的那部分老师。很多学生缺的不是大师，是一个随叫随到、解释清楚、不会嫌问题太基础的中等偏上导师。

“天下熙熙，皆为利来。”放在教育里不刺耳。高校要控制成本，教师有科研压力，学生付了学费却未必拿得到及时反馈。AI一旦把低边际成本答疑做到足够好，稀缺性就很难继续替低效率挡枪。

这对几类人已经有动作含义。

对象	该怎么做	现实约束
高校教师	把AI用于预答疑、生成解释草稿、整理学生常见误区	不能把审题、纠偏和责任一起外包
学生	可用AI做第一轮理解和追问练习	不能把AI答案当权威结论，尤其在法律推理里
法律科技与教育平台	产品重点应转向可审计、可引用、可纠错的教学助手	只做聊天框，很快会陷入信任问题
学校管理者	采购前先定边界：哪些问题能答，哪些必须转人工	没有治理规则，部署越快，责任越乱

高校教师最该警惕的不是“学生用了AI”，而是学生已经发现：很多基础答疑本来就不该排队等人。

平台从业者也别只盯着胜率。法律教育看重的是可辩护的推理链。产品如果不能解释来源、不能标出不确定性、不能让教师介入修正，75%的偏好率不会自动变成采购理由。

教授不会立刻失业，低质量服务会先失去保护

我不买那种简单结论：AI赢了法学教授，所以教授危险了。

真正危险的是那些长期靠稀缺性撑住的低质量服务。

敷衍式答疑会更难混过去。只给方向、不解释理由，会更难混过去。学生等几天才得到一个本可清楚回答的问题，也会更难混过去。

过去这些问题常被解释成“教育资源有限”。以后学生会问得更直接：既然机器能及时解释，学校交付得又贵又慢，凭什么？

但代价也还没结算。

法律训练最难的部分，不是听懂一个解释，而是在不确定里形成自己的判断。AI如果只让学生更快拿到答案，未必让学生更会思考。一个工具太顺手，也可能让人绕开艰难的推理过程。

所以分水岭不在模型能力，而在部署设计。

学校把AI导师直接丢给学生，就是把教学责任外包给概率系统。平台只追求使用时长，就会鼓励学生索取结论。教授把AI当替身，课堂会变薄；把AI当助教，课堂可能变厚。

接下来真正该看的不是又一轮“AI是否懂法律”的口水仗，而是三件事：学校是否建立人工复核和转接机制，平台是否提供可审计的答案链路，课程是否把AI使用纳入训练而不是默许学生私下乱用。

这项研究的价值，恰恰在于把问题推回现实：AI没有终结法学教授，但它已经让教育里的低质量答疑不再安全。

开头那组数字最刺眼的地方，不是75%。是它让人看见，学生需要的很多帮助，本来就该更及时、更清楚、更稳定。

AI答疑赢过法学教授75%：教授没失业，低质量答疑先露馅

AI法学答疑

盲评结果

实验范围

风险标记

结论边界

样本有限

缺口未测

压力来源

AI优势

学生需求

部署分水岭

学校责任

平台要求

这项研究到底测了什么

为什么这事让法学院不舒服

教授不会立刻失业，低质量服务会先失去保护