TII发了个阿拉伯语大模型榜单，真正被重排的是评测尺子

核心摘要 Summary

阿联酋 TII 在 Hugging Face 发布阿拉伯语大模型榜单 QIMMA，先清洗 14 个基准、109 个子集、超 5.2 万条样本，再重排 46 个开源模型。
Jais-2-70B 以 65.81 排第一，Qwen2.5-72B 以 65.75 紧追，分差只有 0.06。
真正值得看的是，QIMMA不是又发了一张榜，而是在修阿拉伯语评测里那把长期不太准的尺；可尺子更干净，不等于裁判就天然中立。

阿联酋技术创新研究所（TII）在 Hugging Face 上线了阿拉伯语大模型榜单 QIMMA。它没直接拿现成题库跑分，而是先清洗基准，再测模型。这一步比排名本身更关键。

已知事实很明确：QIMMA处理了 14 个来源基准、109 个子集、5.2 万多条样本，覆盖文化、STEM、法律、医疗、安全、诗歌文学和代码七个领域；其中 99% 是原生阿拉伯语内容。然后它评了 46 个开源模型。

榜单头部也很紧。Jais-2-70B 总分 65.81 第一，Qwen2.5-72B 65.75 第二，只差 0.06。这个差距说明不了谁“碾压”了谁，最多说明阿拉伯语专精模型和多语通用模型咬得很近。

QIMMA到底做了什么

QIMMA最值钱的，不是重新排了一次名，而是先检查题本身能不能用。它的做法很直接：先由 Qwen3-235B 和 DeepSeek-V3 按 10 项标准筛样本，再交给阿拉伯语母语者复核。

这套流程瞄准的是老问题：错答案、金标不匹配、乱码、重复、表达别扭、文化语境不合。原文的说法很克制，说的是系统性质量问题和评测失真风险，不是“旧榜单造假”，更不是“老基准全部作废”。

有几个数字值得单拎出来看：多数基准的剔除率并不高。ArabicMMLU 为 3.1%，PalmX 为 0.8%，MedAraBench 为 0.7%。这说明问题不在“大面积报废”，而在你原来默认这些题都干净。

代码题最能说明问题。QIMMA没有简单丢掉它们，而是重写阿拉伯语提示词。HumanEval+ 的改写率是 88%，MBPP+ 是 81%。比例这么高，已经不是润色，而是在承认一个尴尬事实：不少旧题测到的不是代码能力，而是模型能不能猜懂不自然的阿拉伯语题面。

关键点	QIMMA给出的事实	这说明什么
数据规模	14个基准、109个子集、5.2万+样本	不是挑少量题库做漂亮分数
内容语言	99% 原生阿拉伯语	在尽量减少“英语思维套壳阿语”
评测流程	双模型按10项标准初筛，母语者复核	先验题，再验模型
代码题处理	HumanEval+ 改写率88%，MBPP+ 改写率81%	旧题面的语言问题很重
榜首分差	Jais-2-70B 65.81，Qwen2.5-72B 65.75	头部差距极小，不适合过度解读

它修了失真，也重写了规则

阿拉伯语评测的老毛病，不只发生在阿拉伯语。很多多语种、小语种基准都爱走一条捷径：先有英语题，再翻过去，然后假定语言、文化、表达习惯都能等价迁移。现实往往不是这样。语言不是容器，硬塞进去，题意就会走样。

所以我认同 QIMMA 的方向。评测先做数据卫生，是对的。古话说“名不正，则言不顺”。题不正，分数再好看，也容易飘。

但这里也有一个不能回避的问题：清洗数据，本身就在改写赛道规则。谁来定那 10 项标准，谁来判定样本该留还是该删，谁来界定“自然阿拉伯语”“文化合适”“表达清晰”，这些都不是中性动作。

换句话说，QIMMA一边在修正测量失真，一边也在争夺定义权。这不是阴谋论，是评测治理的常态。谁定尺，谁就更接近定义什么叫“强”。

历史上这种事并不新鲜。铁路时代，轨距看起来只是技术标准，最后却会塑造产业格局。今天的基准治理不完全一样，但权力结构很像：标准一旦被广泛采用，赢家就不只靠模型，也靠规则。天下熙熙，皆为利来。榜单能影响曝光、引用和预算，裁判席就不会只是技术岗位。

这也是我不愿把 QIMMA 写成“官方标准”的原因。它是平台方自建榜单，不是行业唯一权威。它比很多旧做法更认真，但认真不等于自动免审。

对谁影响最大，接下来该看什么

受影响最直接的，是两类人：做多语种尤其阿拉伯语模型、数据集和评测的团队；以及关心评测公平性、基准治理的读者和采购方。

对模型和评测团队，这张榜的意义很现实。它会改写你怎么做数据、怎么报结果、怎么讲故事。Jais-2-70B 拿了总榜第一，也在文化、STEM、法律、安全四项领先；但多语通用模型没有被甩开，Qwen2.5-72B 只差 0.06，Llama-3.3-70B 拿了医疗第一，gemma-3-27b-it 拿了诗歌第一。头部分散，说明阿拉伯语能力不是一个总分，而是多块能力的拼图。

这会带来很具体的动作。做阿拉伯语模型的团队，接下来大概率会补两件事：重做题面质检，重看领域拆分。只盯总榜，容易把精力投错地方。做数据集和 benchmark 的团队，也很难再拿“翻译过来能跑”当交付标准。

对采购方，最该防的是“总分崇拜”。如果你做的是政务问答、医疗分诊、教育辅导或代码助手，只看总榜很容易买错。更稳妥的做法，是先按任务看领域榜，再看题目质量和可审计性。必要时，采购会延后，先补一轮内部验证，而不是急着跟榜下单。

对关注评测公平性的中文科技读者，这件事至少说明一条：很多多语种榜单的问题，不是模型不行，而是尺子太粗。以后再看任何“小语种领先”或“某模型全面胜出”的结论，最好先问一句：题是谁做的，怎么清洗的，母语者有没有进场。

接下来最该观察的，不是冠亚军会不会互换，而是三件更硬的事：

QIMMA会不会公开更细的样本级结果、复核分歧和清洗日志
其他阿拉伯语评测平台会不会跟进同级别的质量控制
这套清洗方法会不会稳定提升可重复性，而不是只在这一张榜上好看

如果这些信息迟迟不公开，问题就还在。榜单可以更干净，但没有外部可审计，外界依旧很难判断它到底是在修尺，还是在用新尺占位。

我更愿意把 QIMMA 看成一次有价值的校准，而不是终局排名。它至少证明了一件事：阿拉伯语评测过去确实存在测量偏差，尤其在代码题和翻译迁移题上更明显。可它还没有证明，自己就已经是那把最后的准尺。

TII发了个阿拉伯语大模型榜单，真正被重排的是评测尺子

QIMMA榜单

清洗优先

数据重整

母语复核

排名收紧

榜首胶着

能力分散

失真修正

代码题重写

规则权力

定义权上移

中立未证

后续变量

日志公开

外部跟进

QIMMA到底做了什么

它修了失真，也重写了规则

对谁影响最大，接下来该看什么