欢迎光临
我们一直在努力
您的位置:首页>科技前沿 >

资源可以为非母语英语人士提供语言见解和实际应用

经过数千小时的工作,麻省理工学院的研究人员发布了第一个由非母语人士撰写的完全注释英语句子的主要数据库。

领导这个项目的研究人员已经证明,用英语写作的非母语人士的语法怪癖可能是语言洞察力的来源。但是他们希望他们的数据集也可以导致应用程序改善计算机对非英语母语人士的口语或书面语言的处理。

“英语是互联网上使用最多的语言,有超过10亿人使用,”负责新项目的电子工程和计算机科学研究生Yevgeni Berzak说。“大多数在世界上讲英语或制作英文文本的人都是非母语人士。当我们科学地学习英语或者我们为英语进行自然语言处理时,这种特性往往被忽视。“

大多数自然语言处理系统使智能手机和其他计算机应用程序能够处理用普通语言表达的请求,它们基于机器学习,其中计算机系统在大量训练数据集中寻找模式。“如果你想要处理非经典学习者语言,就你可以使用的培训材料而言,你只能训练标准英语,”Berzak解释说。

另一方面,受过非标准英语培训的系统可以更好地处理非母语英语人士的特质,例如倾向于删除或添加介词,替换他人的特定时态,或滥用特定的辅助动词。实际上,研究人员希望他们的工作能够导致语法修正软件针对其他语言的母语人士。

图解句子

研究人员的数据集包括5,124个句子,这些句子来自英语作为第二语言(ESL)的学生撰写的考试文章。这些句子的分布大致相等,来自10种语言的母语人士,这些语言是世界人口约40%的主要语言。

数据集中的每个句子都包含至少一个语法错误。句子的原始来源是剑桥大学公开的集合,其中包括错误的注释,但没有其他语法或句法信息。

为了提供额外的信息,Berzak从语言学研究生Carolyn Spadine领导的电气工程和计算机科学(EECS),语言学和机械工程系招聘了一组麻省理工学院的本科生和研究生。

在如何注释语法正确和错误缠绕的句子的八周培训后,学生们开始直接处理数据。有三个级别的注释。第一部分涉及基本的词性 - 一个词是一个名词,一个动词,一个介词等等。接下来是对词性的更详细描述 - 复数与单数名词,动词时态,比较和最高级形容词等。

接下来,注释者使用一种称为通用依赖形式主义的相对较新的注释方案绘制了句子单词之间的句法关系。句法关系包括哪些名词是动词的对象,动词是其他动词的辅助词,形容词修饰哪些名词,等等。

注释器为每个句子的校正和未校正版本创建了句法图表。这需要一些先前的概念性工作,因为语法错误会使单词的句法角色难以解释。

Berzak和Spadine为他们的注释方案编写了一份20页的指南,其中大部分涉及处理错误缠绕的句子。处理此类句子的一致性对于任何设想的数据集应用都是必不可少的:如果在不同的训练示例中对错误进行了不同的描述,则机器学习系统无法学会识别错误。

可重复的结果

然而,研究人员的方法提供了很好的证据,证明注释者可以一致地绘制不符合语法的句子。对于每个句子,一个评估者完全注释它; 另一个人审查了注释并标记了任何不同意见的领域; 第三个人就这些分歧作出了裁决。

关于如何处理不合语法的句子存在一些分歧 - 但是对于如何处理语法句也存在一些分歧。一般而言,两种类型的句子的一致程度相当。

研究人员在8月份的计算语言学协会年会上发表的一篇论文中报告了这些和其他结果。加入Berzak和Spadine的是Boris Katz,他是Berzak的顾问,也是麻省理工学院计算机科学与人工智能实验室的首席研究科学家。和本科注释人:Jessica Kenney,Jing Xian Wang,Lucia Lam,Keiko Sophie Mori和Sebastian Garza。

研究人员的数据集现在是监督通用依赖性(UD)标准的组织提供的59个数据集之一。Berzak还为数据集创建了一个在线界面,以便研究人员可以查找特定类型的错误,由特定语言的母语人士生成的句子等。

“我发现ESL [数据集]最有趣的是,使用UD开辟了很多可能性,系统地将ESL数据不仅与原生英语进行比较,而且还与使用UD注释语料库的其他语言进行比较,”Joakim说。 Nivre,瑞典乌普萨拉大学计算语言学教授,也是UD标准的开发者之一。“希望其他ESL研究人员能够效仿他们的例子,这将使得能够在几个方面进行进一步的比较,ESL到ESL,ESL到本地等等。”

“对不正确和纠正的句子进行注释的决定使这些材料非常有价值,”Nivre补充道。“例如,我可以看到,如何将其作为机器翻译任务,系统学习从ESL翻译成英语。当前的语料库本质上将提供训练这样一个系统所需的并行数据,双方语法注释的可用性开辟了更多样化的技术方法。

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。