近日,备受瞩目的国际计算语言学协会(ACL)第 63 届年会在维也纳盛大开幕。这一盛会汇聚了全球自然语言处理(NLP)领域的顶尖学者与科研人员,共同探讨行业前沿趋势与创新成果。值得一提的是,在今年的会议中,来自中国的研究力量异军突起,论文作者占比超过半数,引发了学界的广泛关注。

开幕式上,组委会公布了今年参会的具体情况。在提交的论文中,中国作者占比超过 51%,其中第一作者有高达 51.3% 来自中国大陆,远超排在第二位的美国(14%)。这一数据不仅彰显了中国在 NLP 领域的强劲发展势头,也标志着中国科研人员在国际舞台上日益提升的影响力。
作为 NLP 领域的 A 类顶级会议,ACL 每年都吸引着世界各地的研究者展示最新研究成果。回顾过去十年,ACL 的总论文提交量增长了 10 倍,近五年更是增长了 4 倍。今年,会议共收到 8360 篇论文提交,主会录用率为 20.3%(共 1699 篇论文),Findings 录用率为 16.7%(共 1392 篇论文)。与去年相比,论文总提交数量上涨了 70%,审稿人数量也增加到 5903 人,涨幅达 38%。此外,ACL 的桌拒比率比 2024 年飙升 160%。从研究领域来看,NLP 应用(13.1%)、资源和评估(12.4%)、多模态和语言 Grounding 以及语言建模等成为了研究热点。在论文关键词方面,67% 的论文标题和摘要中出现了 “LLM” 一词,其中 9% 提及 GPT,8% 提及 Llama,还有 2% 提到了 DeepSeek、BERT 和 Gemini/Gemma。同时,有 50 位作者提交了超过 10 篇论文,23% 的作者提交了超过 2 篇论文,250 篇论文有超过 10 位作者,而仅有一位作者的论文有 20 篇。有趣的是,65% 的论文标题中都使用了 “:” 符号。
在本届会议上,首届 ACL “计算语言学博士论文奖” 正式揭晓。来自加州大学伯克利分校 EECS 的助理教授 Sewon Min 凭借论文《Rethinking Data Use in Large Language Models》斩获殊荣。这篇论文于 2024 年发表,全文长达 157 页,是 Sewon Min 在华盛顿大学的博士毕业论文。ACL 组委会高度评价该论文,认为其为大模型的行为和能力,尤其是上下文学习方面,提供了关键见解,对当今 NLP 的核心产生了重要影响。

论文的核心围绕大语言模型(LLM)如何利用训练时使用的大量文本语料库展开。Sewon Min 首先揭示了这些模型在训练后学习新任务的内在机制 —— 其上下文学习能力几乎完全依赖于从训练数据中获取的知识。在此基础上,她提出了一类新型非参数化语言模型。这类模型将训练数据重新定位为可检索的信息数据库,显著提升了模型的准确性与可更新性。在研究过程中,Sewon Min 开发了首批广泛应用的神经检索模型之一,并创新地将传统的两阶段流程简化为单阶段。研究表明,非参数化模型为负责任的数据使用开辟了新途径,例如通过对授权文本与受版权内容的分类差异化处理。最后,Sewon Min 对下一代语言模型的发展方向作出展望,强调高效扩展、事实性增强和去中心化架构这三大核心目标。
早在 7 月初,Sewon Min 的这篇论文就获得了 ACM 博士论文荣誉提名。在接受 ACM 采访时,她分享了选择 LLM 领域的原因。她表示,NLP 领域长期致力于构建 “通用模型”,大语言模型的出现通过海量数据的自监督训练构建巨型模型,消除了对人类监督的依赖,似乎为实现这一目标指明了方向。这一理念简单却揭示了诸多关键要素,如数据质量与规模的核心作用、对人类先验知识的最小化依赖以及消除人工标注环节。Sewon Min 还提到,当前 LLM 生成人物传记时事实错误率高达 42%,这与 LLM 基于记忆训练数据的底层机制有关。对于知名人士,模型能生成准确传记,但对于曝光不足的对象,模型往往生成看似合理实则错误的文本(即幻觉现象),反映了此类模型数据学习机制的核心局限。在对比非参数化大语言模型与标准大语言模型时,她举例说,标准大语言模型常虚构事实,如 ChatGPT 在回答 “首尔有哪些米其林三星餐厅” 时会错误列举;而非参数化大语言模型会从实时更新的数据存储中检索文档,并基于这些文档给出正确答案。
目前,ACL 最佳论文奖尚未公布,但首届博士论文奖的揭晓已为会议增添了一抹亮色。中国作者在本届 ACL 上的突出表现,以及创新性研究成果的涌现,预示着 NLP 领域将迎来更多的突破与发展。随着全球科研力量的不断融合与竞争,我们有理由期待在未来的学术舞台上,会有更多来自中国的声音,为推动自然语言处理技术的进步贡献力量。