论文阅读:DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios 基于现实场景的大规模中文事件抽取数据集


相关系列笔记:

论文阅读:DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios(附数据集地址)
PaddleNLP实战——LIC2021事件抽取任务基线(附代码)
PaddleNLP实战——LIC2021关系抽取任务基线(附代码)

  引用格式:Li X, Li F, Pan L, et al. DuEE: A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios[C]//CCF International Conference on Natural Language Processing and Chinese Computing. Springer, Cham, 2020: 534-545.
  论文地址:https://sci-hub.se/10.1007/978-3-030-60457-8
  数据集下载地址:https://aistudio.baidu.com/aistudio/competition/detail/65

Abstract-摘要

  本文介绍了一种新的现实场景下的中文事件抽取数据集。与以前的EE数据集相比,DuEE有几个优势。(1)规模:DuEE由19,640个事件组成,分为65种事件类型,以及映射到121个论元角色的41,520个事件论元,据我们所知,这是迄今为止最大的中国EE数据集。(2)质量:所有数据均采用众包评审人工标注,确保标注准确率高于95%。(3)真实:该模式涵盖了百度搜索的热门话题,数据来自百家号新闻。该任务也接近于现实场景,例如,单个实例被允许包含多个事件,不同的事件论元被允许共享相同的论元角色,并且一个论元被允许扮演不同的角色。为了推进中国环境工程的研究,我们向开源社区发布了环境工程和基线系统。我们还在DuEE的基础上组织了一场共享竞赛,吸引了1206名参与者。我们分析了表现最好的系统的结果,并希望进一步改进。

Keywords-关键词

  事件抽取数据集性能评估

1 Introduction-引言

  事件抽取是自然语言理解中一项重要而又具有挑战性的任务。给定一个事件提及,事件抽取系统应该识别具有特定事件类型的事件触发器,以及它们具有特定论元角色的相应论元表1给出了EE任务的一个例子。

在这里插入图片描述
  尽管很重要,但只有少数EE数据集对开源社区公开可用。ACE 2005是EE最具影响力的标杆,大多数研究人员在那里进行实验。这是一个多语言语料库,包含英语、阿拉伯语和中文数据。2016年和2017年TAC KBP活动轨迹也为EE提供了多语言基准,包括英语、西班牙语和中文数据。然而,这两个数据集的规模都很小,对中国电子工程的影响很小。中文突发事件语料库(CEC) 是专门为中文EE设计的。它也是一个小数据集,仅涵盖五种不同紧急情况的事件类型。大规模数据集的缺乏极大地阻碍了EE技术的发展。

  本文介绍了一个大规模的数据集,它是专门为现实场景中的中国电子工程而设计的。DuEE有以下优点:

  规模:DuEE由19,640个事件组成,分为65种事件类型,以及映射到121个论元角色的41,520个事件论元,据我们所知,这是迄今为止最大的中国EE数据集。表2强调了DuEE在规模方面优于以前的数据集。

在这里插入图片描述

  质量:DuEE提供了丰富的标注,包括触发器、事件类型、事件论元以及它们各自的论元角色。都是人工用众包审核标注的,保证标注准确率高于95%。
  真实:该模式涵盖了百度搜索的热门话题,数据是从百家号的新闻中收集的。这些设置也接近真实世界的场景,即:

  ① 单个实例可以包含多个事件,例如,表1中的实例提到了两个事件,一个是类型“人生.结婚(Life.Marrige)”,另一个是类型“人生.生子/女(Life.Delivery)”。
  ② 允许不同的事件论元共享相同的论元角色,例如,在第一个事件中“余文乐(Wenle Yu)” 和“王棠云(Tangyun Wang)”共享相同的角色“结婚双方(Married Person)”。
  ③ 一个论元可以扮演不同的角色,例如,“王棠云(Tangyun Wang)”在第一个事件中的角色是“结婚双方(Married Person)”,而在第二个事件中的角色是“产子者(Puerpera)”。

  这些设置使EE在DuEE上成为一项更具挑战性的任务。

  我们向开源社区发布了数据工程和基线系统,以推进中国数据工程的研究。我们还在DuEE的基础上组织了一场共享竞赛,吸引了来自世界各地的1,206名参与者。我们分析了表现最好的系统的结果,并希望进一步改进。

  本文的其余部分内容如下:第2节描述了DuEE的构建过程,第3节给出了它的统计数据,之后第4节介绍了分享赛,以及分析了顶尖赛组的成绩,第5节是结束语

2 Dataset Construction-数据集构建

  与电子工程任务相比,此类任务的语料库构建过程也是一项具有挑战性的工作。如图1所示,我们在几个步骤中进行了该过程。事件模式构建旨在收集现实世界中最常见的事件类型和每个事件类型的论元角色。数据收集和过滤生成要标注的大规模数据集。在标注过程中,我们将进行一个标注评审循环,直到正确性满足预定义的标准。

在这里插入图片描述

2.1 Event Schema Construction-事件模式构建

  对于EE任务,所有信息都将根据预定义的模式进行抽取。因此,模式构建对事件抽取语料库的质量至关重要。事件模式可以解释为一组模板,每个模板都应该包含一个事件类型和该事件类型下的几个对应的论元角色

在这里插入图片描述

  为了收集现实世界中最常见的事件类型,我们首先从百度搜索中收集了3600个趋势主题。之后,我们对每个主题的事件类型进行了分析,最终选出了9个最常出现的事件类型,其中包括65个子类型。

  对于每种事件类型,将定义相关的论元角色。论元角色主要是组织等实体和价格等数字。此外,很少出现的角色将被排除在外。最后,我们为所有事件类型收集了121种不同的论元角色。对于每个事件类型,平均有3.2个论元角色。表3展示了一些事件类型及其论元角色的例子。

在这里插入图片描述

2.2 Data Collection and Filtering-数据收集和过滤

  在本文中,我们使用百度提供的创作平台百家号的新闻作为原始文档来源。我们对2019年1月1日至2019年10月30日这五个月份发布的新闻进行了抽样调查在数据库中作为初始候选新闻,最终获得80多万条新闻。之后,进行两级过滤,进一步选择更值得标注的新闻。

  首先进行基于规则的过滤。一般来说,我们对标题相同的新闻进行重复数据消除,以减少重复。但是还是有相当多的新闻没有提到任何事件。因此,进行基于分类的过滤以识别包含事件的潜在新闻。我们使用我们的预分类模型来识别一条新闻是否包含任何事件。为了防止错过有价值的新闻,我们只把大概率的新闻作为无事件新闻过滤掉。在两级过滤过程之后,我们总共获得了200,000条新闻,因为文档将进行标注。

2.3 Data Annotation-数据标注

  为了获得高质量的语料库,采用了文档标注众包评审两种方法对所有选择的文档进行标注。

  文档标注。标注是在事件标注平台上进行的,标注过程实际上包含几个步骤,如图2所示。标注者应该首先识别文档是否包含任何可以被分类为预定义事件类型之一的事件。只有包含相应事件的文档才会继续后面的标注过程。对于一个文档,包含至少一个特定事件的句子应该首先被选为实例。之后,标注者将其进行触发器提取,通常是动词或名词化,它们从实例中最直接地描述事件的发生。对于每个触发器,它所指示的事件类型也应该同时得到澄清。只要为事件触发器确定了事件类型,所有要标注的论元角色都会被自动确认。因此,标注者会被要求提取事件论元,并以类似的方式为每个提取的论元分配特定的论元角色。

在这里插入图片描述
  此外,一个实例中可能有多个事件触发器,一个事件触发器可以分配给不同的事件类型,因为它可能指示具有不同类型的多个事件的发生。通常,并非所有预定义的论元角色都可以在一个事件中找到,有时,可能不存在任何必需的事件论元。因此,我们不限制事件中的角色数量。一个论元可以在一个实例中扮演不同的角色,多个事件论元也可以分配给同一个论元角色。在表1中可以观察到一个例子。此外,我们还为测试数据集中的每个论元标注了可能的别名,以防某些别名以相同的方式指示目标论元。

  众包评审。另一组标注者被要求在众包平台上检查每个标注的论元是否正确。为了降低复习难度,同时提高效率,我们根据正式文档标注的结果构造了判断题。判断问题是按事件分组的,这意味着如果提取几个论点,一个事件将有多个问题需要审查。图3给出了一个评审实例的例子。对于判断为错误的问题,我们会重新标注相应的实例,直到正确率达到95%。

在这里插入图片描述

3 Dataset Statistics-数据集统计

  根据上面介绍的构建过程,我们构建了最大的中文事件抽取数据集DuEE,它包含19,640个事件,这些事件被分类为65种不同的预定义事件类型,41,520个事件论元被映射到121个唯一的预定义论元角色。与现有的数据集不同,我们在句子层面提供数据集。总共有16,956个实例,每个实例可能包含几个句子,因为有时描述一个事件需要几个句子。

在这里插入图片描述

  如表4所示,DuEE数据集分为三部分,一个训练集、一个验证集和一个测试集,这三个集之间没有重叠。目前,训练集和验证集可供下载。

  我们进一步分别分析了事件类型和论元角色的数据分布,相应的结果如图4图5所示。我们可以看到论元角色的分布与事件类型的分布密切相关。而事件类型“Competition.Result”占所有事件的15%,我们可以看到相关的论证角色也占据了所有论证的很大一部分,如“Winner”和“Loser”。像“Time”和“Location”这样的论点角色通常出现在大多数事件中,因此出现频率很高。

在这里插入图片描述

4 Evaluation on DuEE-对DuEE的评价

4.1 Shared Competition-共享竞争

  在2020年语言和智能挑战中,我们举办了一个基于DuEE数据集的EE任务。给定预定义的模式和由句子组成的实例,该任务旨在为每个实例识别可能的预定义事件类型,并提取扮演特定角色的事件论元。本次比赛将参与者系统的输出与手动标注的结果进行匹配,并根据匹配的F1进行评分。

  对于每个预测的论元,我们使用标记级别的标注结果计算其匹配分数,并且匹配过程不区分大小写。如果一个论点有多个标注提及,将使用匹配分数最高的提及。我们假设每个论元的匹配分数为mi(0 ≤ mi≤ 1),mi的计算方法如下:

在这里插入图片描述

  第I个预测论元和所选标注结果之间的公共字符数的距离。Lpi和Lai分别是预测论元和标注论元的长度。而Metand marin分别表示相关事件类型和论元角色的正确性,两者都是0或1。给定mi,最终F1分数的计算如下:

在这里插入图片描述
  其中,n代表所有预测论元的数量,n代表所有标注论元的数量。最终结果根据F1成绩排名。

4.2 Results and Analysis-结果分析

  总的比赛结果公布在比赛网站上。表5列出了顶级参与者系统的性能,结果按其F1分数排序。为了进一步理解我们的数据集和相关的EE技术,我们想提供一个对性能最好的系统的输出的详细分析。

在这里插入图片描述

  预测结果的错误类型。我们收集了10个表现最好的系统的预测结果,并分析了错误预测论元的错误类型,表6显示了最终结果。当错误预测事件类型的名称和文本之间存在共同字符时,很容易出现“事件类型错误”。它揭示了EE系统实际上需要对上下文有很好的理解。最常见的错误类型是“不存在的角色错误”,具体来说,提取的短语有时实际上可能不是一个实体,在其他情况下,提取的实体不会在相应的事件中起作用。这是因为总共有121个角色,这增加了论元提取。当提取的论元与澄清角色的任何标注结果完全不匹配时,我们称之为“完全不匹配的论元错误”。错误提取的论元通常与带标注的论元具有相同的实体类型。这表明EE系统应该善于分析文本中的语义角色。对于“论元边界错误”,在大多数情况下,预测论元的长度比标注论元的长度短。这表明在DuEE中很难捕捉关于论元的完整描述,有时,不完整的预测结果实际上不能指示目标论元。

在这里插入图片描述
在这里插入图片描述

  单值与多值问题。如表5所示,我们可以知道,与精确分数相比,表现最好的系统往往具有较低的召回分数,因此我们对此进行了详细的分析。首先,我们发现具有多个事件的实例的召回性能比单事件实例低14.4%,如表7所示,并且具有多个事件的实例在测试数据集中占19.5%。一个实例中的事件通常是相互关联的,并且可以共享相同的论元,如表1所示。之后,我们还发现,当一个特定的角色有多个论元需要预测时,召回率会降低13.1%,如表7所示。我们进一步对具有多论元角色的实例进行了采样,并发现我们可以根据多个论元是否彼此相邻将这些样本分为两种类型。我们如果两个论元通过一个简单的分隔符连接,也将它们视为相邻的。两种类型的实例和相应的召回如表8所示。我们知道,对于多论元抽取问题,特别是当论元彼此相邻时,实现高召回率将是一个巨大的挑战。
在这里插入图片描述

5 Conclusion-结论

  本文介绍了由真实世界热点话题和新闻构建的最大的高质量中文事件抽取数据集DuEE数据集,并详细描述了其构建过程。我们引入了基于DuEE的技术评估,并分析了表现最佳的系统的输出。实验结果不仅表明,该方法有助于中文电子工程技术的进一步研究,而且为提出的语料库提供了坚实的基础。最后,分析表明多值事件抽取问题还需要进一步研究,包括多事件检测多论元抽取。与此同时,更多的研究还应该集中在事件抽取系统上,该系统可以在有限的样本量下在更多的事件类型上表现良好,这对于现实问题来说是一项伟大的工作。

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐