Notebookcheck Logo

根据最新学术研究,一种语言在法律硕士考试中击败英语和汉语,令人惊讶

根据这项研究,波兰语在长语境量表中的平均准确率为 88%,在所有语言中遥遥领先。英语在该级别中排名第 6。图为 ChatGPT 手机图片库。(图片来源:Zulfugar Karimov on Unsplash)
根据这项研究,波兰语在长语境量表中的平均准确率为 88%,在所有语言中遥遥领先。英语在该级别中排名第 6。图为 ChatGPT 手机图片库。(图片来源:Zulfugar Karimov on Unsplash)
一项新的多语言基准测试表明,波兰语在长语境 LLM 测试中的表现优于英语和汉语,这说明了脚本和标记化是如何影响准确性的。结果表明,随着语境窗口的增加,语言结构的重要性也随之增加。
AI

一项新的多语言研究对大型语言模型如何处理长文档进行了评估,并得出了一个意想不到的信息:当上下文窗口扩展到 64,000 个标记或更多时,波兰语的准确率最高,而不是英语或汉语。这些发现来自OneRuler 基准,该基准是在 COLM 2025 论文中提出的。中介绍的 OneRuler 基准,该基准测试了 26 种语言的检索和聚合任务。

研究人员比较了多种上下文长度下的模型准确率,发现一旦序列变长,准确率就会发生明显的变化。根据结果图表(第 6 页),波兰语在长语境规模下以 88% 的平均准确率领先于所有语言。英语跌至第六位,而汉语排名倒数第四。

(图片来源:一把尺子量到底 / COLM 2025)
(图片来源:一把尺子量到底 / COLM 2025)

研究暗示,这种差异可能与标记化效率和基于脚本的差异有关,而不仅仅是训练数据量。使用拉丁字母的语言,如波兰语、法语和西班牙语,一直比使用对数或abugida书写系统的语言表现更好。汉语、韩语、泰米尔语和其他语言即使在较短的语境中也只表现出中等准确度(随着序列变长,准确度进一步下降)。这种与预期排名完全相反的情况非常有趣,因为大多数广泛使用的 LLM 主要是在英语较多的数据集上进行训练的。然而,论文的结果表明,一旦模型必须搜索、召回或总结深藏在长文档中的信息,语言的结构方面就会优先于数据集的普遍性。

基准测试中的其他发现也支持这种解释。随着上下文范围的扩大,最强语言和最弱语言之间的性能差距急剧拉大--从 8,000 字节时的 11% 到 128,000 字节时的 34%。研究中的另一个细节显示了这些测试对微小指令变化的敏感性。例如,如果目标字符串不存在,只允许模型回答 "无",就会导致 128k 字节的英语准确率下降 32%,如第 2 页所示。

虽然该基准测试也对模型系列进行了比较,但结果表明,长语境评估不能仅仅依赖英语测试,如果忽略脚本和标记化效应,跨语言的性能概括可能会产生误导。随着上下文窗口的增大,语言差异的重要性也在增加,而不是减少--一旦序列长度攀升到数万时,英语在 LLM 基准中的主导地位可能不再具有代表性。

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 11 > 根据最新学术研究,一种语言在法律硕士考试中击败英语和汉语,令人惊讶
Anubhav Sharma, 2025-11-24 (Update: 2025-11-24)