16名美国法学教授,40个合同法学生问题,近3000次匿名配对评估。
结果有点刺眼:在不知道答案作者是谁的情况下,教授们有75%的时候更偏好AI写的合同法答疑,而不是同行教授写的答案。
别把它读成“AI全面超过法学教授”。这项研究看的是合同法课后答疑、office hours那类场景。不是法庭辩护,不是论文指导,也不是整套法学教育。
但也别轻描淡写。法律不是选择题,合同法答疑常常要解释规则、例外、模糊性和竞争性论证。AI能在这里赢,说明它击中的不是知识点记忆,而是解释质量、稳定性和可获得性。
这项研究到底测了什么
研究由斯坦福法学院教授Julian Nyarko领导,合作者来自耶鲁、NYU、芝加哥大学等机构。论文题目是《Law Professors Prefer AI Over Peer Answers》。
核心设置很简单:把AI答案和人类法学教授答案匿名放在一起,让法学教授做配对评估。
| 项目 | 研究设置 | 结果或含义 |
|---|---|---|
| 评估者 | 16名美国法学教授 | 样本不大,但评估者是专业同行 |
| 问题 | 40个合同法学生问题 | 对应课后答疑、office hours场景 |
| 对比方式 | 近3000次匿名配对 | 评估者不知道答案来自AI还是教授 |
| 偏好结果 | AI vs 人类同行答案 | AI赢下75% |
| 风险标记 | 可能误导或有害 | AI为3.5%,人类为12% |
最后一行最容易被误读。
3.5%不是“AI没有幻觉”。它只说明,在这个受控实验里,AI答案被教授标为可能误导或有害的比例更低。人类答案被标为12%,也不等于教授更危险,只能说明人类答疑同样会有遗漏、含混和误导。
研究作者的表述也很克制:他们不主张全面采用AI导师。重点应从“AI能不能给出高质量答案”,转到“怎么负责任地部署”。
还有几个限制不能跳过。
这项研究只评估答案质量,不评估长期学习效果。16名教授也不是整个法学教育体系。场景限定在合同法答疑,不代表所有课程、所有法学院、所有法律服务都适用。
公开线索里也没有足够方法细节让读者判断所有变量,比如具体AI模型、教授答案生成条件、评分标准的细分维度。结论可以重视,但不能拿来做一锤定音的行业宣判。
为什么这事让法学院不舒服
法律教育一直有一种体面:真正的训练来自人,来自老师对案例的拆解,来自课外答疑里那些细碎的追问。
这套体面没有倒。松了一块。
AI赢的不是教授的全部工作。它赢的是一种高频、重复、解释型、又很消耗教师时间的工作:学生问一个概念怎么理解,一个规则怎么适用,一个案例为什么两边都能讲。
人类老师当然能答好。问题是,人不总在线,不总稳定,也不总愿意把同一个问题讲第十遍。
AI没有办公室时间。也没有情绪成本。
这才是教育技术最锋利的地方。它不一定先替代最好的老师,而是先替代学生实际能拿到的那部分老师。很多学生缺的不是大师,是一个随叫随到、解释清楚、不会嫌问题太基础的中等偏上导师。
“天下熙熙,皆为利来。”放在教育里不刺耳。高校要控制成本,教师有科研压力,学生付了学费却未必拿得到及时反馈。AI一旦把低边际成本答疑做到足够好,稀缺性就很难继续替低效率挡枪。
这对几类人已经有动作含义。
| 对象 | 该怎么做 | 现实约束 |
|---|---|---|
| 高校教师 | 把AI用于预答疑、生成解释草稿、整理学生常见误区 | 不能把审题、纠偏和责任一起外包 |
| 学生 | 可用AI做第一轮理解和追问练习 | 不能把AI答案当权威结论,尤其在法律推理里 |
| 法律科技与教育平台 | 产品重点应转向可审计、可引用、可纠错的教学助手 | 只做聊天框,很快会陷入信任问题 |
| 学校管理者 | 采购前先定边界:哪些问题能答,哪些必须转人工 | 没有治理规则,部署越快,责任越乱 |
高校教师最该警惕的不是“学生用了AI”,而是学生已经发现:很多基础答疑本来就不该排队等人。
平台从业者也别只盯着胜率。法律教育看重的是可辩护的推理链。产品如果不能解释来源、不能标出不确定性、不能让教师介入修正,75%的偏好率不会自动变成采购理由。
教授不会立刻失业,低质量服务会先失去保护
我不买那种简单结论:AI赢了法学教授,所以教授危险了。
真正危险的是那些长期靠稀缺性撑住的低质量服务。
敷衍式答疑会更难混过去。只给方向、不解释理由,会更难混过去。学生等几天才得到一个本可清楚回答的问题,也会更难混过去。
过去这些问题常被解释成“教育资源有限”。以后学生会问得更直接:既然机器能及时解释,学校交付得又贵又慢,凭什么?
但代价也还没结算。
法律训练最难的部分,不是听懂一个解释,而是在不确定里形成自己的判断。AI如果只让学生更快拿到答案,未必让学生更会思考。一个工具太顺手,也可能让人绕开艰难的推理过程。
所以分水岭不在模型能力,而在部署设计。
学校把AI导师直接丢给学生,就是把教学责任外包给概率系统。平台只追求使用时长,就会鼓励学生索取结论。教授把AI当替身,课堂会变薄;把AI当助教,课堂可能变厚。
接下来真正该看的不是又一轮“AI是否懂法律”的口水仗,而是三件事:学校是否建立人工复核和转接机制,平台是否提供可审计的答案链路,课程是否把AI使用纳入训练而不是默许学生私下乱用。
这项研究的价值,恰恰在于把问题推回现实:AI没有终结法学教授,但它已经让教育里的低质量答疑不再安全。
开头那组数字最刺眼的地方,不是75%。是它让人看见,学生需要的很多帮助,本来就该更及时、更清楚、更稳定。
