编者按:自然语言不仅仅是英语。然而,在当前的NLP研究中,人们往往认为英语是一种足够代表性的语言。除了英语以外的其他语言通常被视为“特殊”语言,审稿人在同等条件下对这些研究的重视程度并不如对英语研究那样高。这实际上是一种对语言的误解。在近日的一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》中,华盛顿大学的一位语言学家Emily M. Bender指出了这一问题,并提出了一个方案,以此来命名和标记学习的语言。
NLP领域中的进展取决于可用的资源。一旦有了带有黄金标准(gold standard)的标签或注释,这些资源就能够反映出NLP系统对于当前任务预期输出的情况。虽然无监督、弱监督、半监督或远程监督机器学习技术降低了依赖标记数据的需求,但即使使用这些技术,也需要大量标记数据来评估系统性能。此外,对于需要大量未标记数据支持的大型机器学习模型来说,这一需求导致了NLP领域出现了一条数字鸿沟,即高资源与低资源之间存在巨大的差距。
高资源级别只有少数几种,如英语、汉语、阿拉伯语和法语,以及德语、葡萄牙语和西班牙语等。这些拥有大量文本和音频资料以及一些注释资料,如树状图库(treebank)和评估集。此外还有超过50项以上其他大型资源水平包括葡萄牙语、意大利语、高兰荷兰語標準阿拉伯語及捷克語。而世界上约7000多种其他语言则几乎没有任何可用资源。
值得强调的是,在主要NLP会议上的绝大多数研究工作集中在这几个高级别的言论上,其中又以英文最为突出。这不仅是一个恶性循环,而且还会造成错误理解,即将某个任务上的先进水平与其在英文上的先进水平相混淆。如果一篇论文不能与之进行比较,那么审稿人无法判断该研究是否具有价值。
Bender 指出,我们潜意识里认为英语是自然语言的一个代名词,这加剧了这种误解。当我们使用的是英语时,我们不会在名字中显示“English”,这更助长了这种错误认知。但事实上,English既不是自然语言的一般代称,也不是所有自然言说的代表。
AI科技评论编辑
2021年10月15日