阿联酋技术创新研究所(TII)在 Hugging Face 上线了阿拉伯语大模型榜单 QIMMA。它没直接拿现成题库跑分,而是先清洗基准,再测模型。这一步比排名本身更关键。
已知事实很明确:QIMMA处理了 14 个来源基准、109 个子集、5.2 万多条样本,覆盖文化、STEM、法律、医疗、安全、诗歌文学和代码七个领域;其中 99% 是原生阿拉伯语内容。然后它评了 46 个开源模型。
榜单头部也很紧。Jais-2-70B 总分 65.81 第一,Qwen2.5-72B 65.75 第二,只差 0.06。这个差距说明不了谁“碾压”了谁,最多说明阿拉伯语专精模型和多语通用模型咬得很近。
QIMMA到底做了什么
QIMMA最值钱的,不是重新排了一次名,而是先检查题本身能不能用。它的做法很直接:先由 Qwen3-235B 和 DeepSeek-V3 按 10 项标准筛样本,再交给阿拉伯语母语者复核。
这套流程瞄准的是老问题:错答案、金标不匹配、乱码、重复、表达别扭、文化语境不合。原文的说法很克制,说的是系统性质量问题和评测失真风险,不是“旧榜单造假”,更不是“老基准全部作废”。
有几个数字值得单拎出来看:多数基准的剔除率并不高。ArabicMMLU 为 3.1%,PalmX 为 0.8%,MedAraBench 为 0.7%。这说明问题不在“大面积报废”,而在你原来默认这些题都干净。
代码题最能说明问题。QIMMA没有简单丢掉它们,而是重写阿拉伯语提示词。HumanEval+ 的改写率是 88%,MBPP+ 是 81%。比例这么高,已经不是润色,而是在承认一个尴尬事实:不少旧题测到的不是代码能力,而是模型能不能猜懂不自然的阿拉伯语题面。
| 关键点 | QIMMA给出的事实 | 这说明什么 |
|---|---|---|
| 数据规模 | 14个基准、109个子集、5.2万+样本 | 不是挑少量题库做漂亮分数 |
| 内容语言 | 99% 原生阿拉伯语 | 在尽量减少“英语思维套壳阿语” |
| 评测流程 | 双模型按10项标准初筛,母语者复核 | 先验题,再验模型 |
| 代码题处理 | HumanEval+ 改写率88%,MBPP+ 改写率81% | 旧题面的语言问题很重 |
| 榜首分差 | Jais-2-70B 65.81,Qwen2.5-72B 65.75 | 头部差距极小,不适合过度解读 |
它修了失真,也重写了规则
阿拉伯语评测的老毛病,不只发生在阿拉伯语。很多多语种、小语种基准都爱走一条捷径:先有英语题,再翻过去,然后假定语言、文化、表达习惯都能等价迁移。现实往往不是这样。语言不是容器,硬塞进去,题意就会走样。
所以我认同 QIMMA 的方向。评测先做数据卫生,是对的。古话说“名不正,则言不顺”。题不正,分数再好看,也容易飘。
但这里也有一个不能回避的问题:清洗数据,本身就在改写赛道规则。谁来定那 10 项标准,谁来判定样本该留还是该删,谁来界定“自然阿拉伯语”“文化合适”“表达清晰”,这些都不是中性动作。
换句话说,QIMMA一边在修正测量失真,一边也在争夺定义权。这不是阴谋论,是评测治理的常态。谁定尺,谁就更接近定义什么叫“强”。
历史上这种事并不新鲜。铁路时代,轨距看起来只是技术标准,最后却会塑造产业格局。今天的基准治理不完全一样,但权力结构很像:标准一旦被广泛采用,赢家就不只靠模型,也靠规则。天下熙熙,皆为利来。榜单能影响曝光、引用和预算,裁判席就不会只是技术岗位。
这也是我不愿把 QIMMA 写成“官方标准”的原因。它是平台方自建榜单,不是行业唯一权威。它比很多旧做法更认真,但认真不等于自动免审。
对谁影响最大,接下来该看什么
受影响最直接的,是两类人:做多语种尤其阿拉伯语模型、数据集和评测的团队;以及关心评测公平性、基准治理的读者和采购方。
对模型和评测团队,这张榜的意义很现实。它会改写你怎么做数据、怎么报结果、怎么讲故事。Jais-2-70B 拿了总榜第一,也在文化、STEM、法律、安全四项领先;但多语通用模型没有被甩开,Qwen2.5-72B 只差 0.06,Llama-3.3-70B 拿了医疗第一,gemma-3-27b-it 拿了诗歌第一。头部分散,说明阿拉伯语能力不是一个总分,而是多块能力的拼图。
这会带来很具体的动作。做阿拉伯语模型的团队,接下来大概率会补两件事:重做题面质检,重看领域拆分。只盯总榜,容易把精力投错地方。做数据集和 benchmark 的团队,也很难再拿“翻译过来能跑”当交付标准。
对采购方,最该防的是“总分崇拜”。如果你做的是政务问答、医疗分诊、教育辅导或代码助手,只看总榜很容易买错。更稳妥的做法,是先按任务看领域榜,再看题目质量和可审计性。必要时,采购会延后,先补一轮内部验证,而不是急着跟榜下单。
对关注评测公平性的中文科技读者,这件事至少说明一条:很多多语种榜单的问题,不是模型不行,而是尺子太粗。以后再看任何“小语种领先”或“某模型全面胜出”的结论,最好先问一句:题是谁做的,怎么清洗的,母语者有没有进场。
接下来最该观察的,不是冠亚军会不会互换,而是三件更硬的事:
- QIMMA会不会公开更细的样本级结果、复核分歧和清洗日志
- 其他阿拉伯语评测平台会不会跟进同级别的质量控制
- 这套清洗方法会不会稳定提升可重复性,而不是只在这一张榜上好看
如果这些信息迟迟不公开,问题就还在。榜单可以更干净,但没有外部可审计,外界依旧很难判断它到底是在修尺,还是在用新尺占位。
我更愿意把 QIMMA 看成一次有价值的校准,而不是终局排名。它至少证明了一件事:阿拉伯语评测过去确实存在测量偏差,尤其在代码题和翻译迁移题上更明显。可它还没有证明,自己就已经是那把最后的准尺。
