蓝盟IT外包,Google发布了7种语言的新数据集:有效地增强了BERT等多语言模型任务的准确性,达到3倍

发布者:上海IT外包 发布时间:2019/10/10 9:49:54来源:www.linemore.com

  最近,谷歌发布了一个包含七个语言解释对的新数据集:PAWS和PAWS-X。通过训练该数据集,BERT可以将问题的解释准确性提高三倍。其他高级模型也可以使用此数据集将准确性提高到85-90%。谷歌希望这些数据集将有助于促进多语言模型的进一步发展,并发布了相关文章介绍该数据集,雷锋网络AI开发人员对其进行了如下编译。
  背景环境
  单词顺序和句法结构对句子的含义影响很大,即使单词顺序的微小变化也可以完全改变句子的含义,例如以下句子集:
  从纽约飞往佛罗里达的航班。 (从纽约到佛罗里达)
  从佛罗里达飞往纽约的航班。 (从佛罗里达飞往纽约的航班)
  尽管这三个词都具有相同的短语;但是1和2具有相同的含义,我们将这样的一组句子对称为释义对,而1和3具有完全相反的含义,因此我们将其称为非释义对。识别句子对是否为释义对的任务称为释义识别。对于许多实际应用中的自然语言理解(NLU)处理,例如常见的问答任务,此任务非常重要。
  令人惊讶的是,即使是最先进的模型,例如BERT,如果仅在现有NLU数据集(如上面列出的数据集)下进行训练,也无法正确识别大多数非解释对。 3)之间的区别。造成这种情况的主要原因是缺少现有NLU数据集中的训练数据。因此,即使现有的机器学习模型可以很好地理解复杂的上下文短语,它们在判断此类任务方面仍然有困难。
  PAWS数据集和PaWS-X数据集
  为了解决这个问题,我们发布了两个新的数据集,专用于帮助社区进行相关研究。数据集包括:
  支持对敌对数据集PAWS的英语解释(来自Word Scrambling的对位短语对手,https://arxiv.org/abs/1904.01130)支持对立数据集PaWS-X的多语言解释(https://arxiv.org/abs/1908.11828)
  其中,PaWS-X数据集基于PAWS数据集,并进行了扩展以获得包含六种不同类型语言的复述识别对抗数据集。支持的语言包括:法语,西班牙语,德语,中文,日语和韩语。
  这两个数据集都包含格式正确,高度重叠的词汇对。句子对中大约一半是解释对,其他不是,数据集还包含最高级模型的训练数据。通过训练新数据,模型的解释识别任务的准确性从50%提高到85-90%。
  与先前的模型相比,当新的训练数据不可用时,无法获得非本地上下文信息的模型无法完成定义识别任务;这个新的数据集为模型对单词顺序和结构的敏感性提供了有效的度量。工具。
  数据集详细信息
  PAWS数据集包含来自Quora问题对(QQP,https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs)和维基百科的总共108463组手动标记的句子对。页面(https://www.wikipedia.org/)。
  PAWS-X数据集包含23659组手动确定的PAWS扩展句子对和296406组机器翻译的训练对。下表提供了数据集的详细统计信息。
  PAWS-X训练集是从PAWS Wiki数据集的一部分机器翻译而来的。
  支持英语的PAWS数据集
  在文章“来自单词扰乱的PAWS:释义对手(https://arxiv.org/abs/1904.01130)”中,我们提出了一种用于生成具有高度重叠的单词和解释的句子对的工作流。
  要生成数据对,首先将源语句传递给专门的语言模型(https://en.wikipedia.org/wiki/Language_model),该模型将创建语义上互换的单词交换变体语句,但不能保证所生成的语句和将生成原始句子。彼此之间的关系是正确的;然后,人类法官判断句子的语法是否正确,然后其他人类法官判断它们是否是互斥的句子。PAWS语料库创建工作流程
  这种简单的单词交换策略的一个问题是,它倾向于产生与常识不符的“解释语句”,例如“为什么坏事会发生在好人身上”和“为什么好事会发生在坏人身上” ,尽管措辞相同,但是“为什么好人会发生坏事”与“为什么好人会发生好事”的含义完全不同。
  因此,为了确保解释和非解释之间的平衡,我们添加了其他基于反翻译的数据信息。由于反翻译通常倾向于与此类方法相反,因此它选择先保留句子的含义,然后基于此更改单词顺序和单词选择。这两种策略共同确保了PAWS语料库的总体平衡,尤其是Wikipedia部分。
  多语言PAWS-X数据集创建
  建立PAWS数据集后,我们将其扩展为其他六种语言,包括:中文,法文,德文,韩文,日文和西班牙文。在此过程中,我们使用人工翻译来完成句子对的翻译扩展和测试集生成工作,并使用神经网络翻译(NMT)服务来完成训练集的翻译。
  我们从每种PAWS扩展名中随机抽取了六种语言的4,000个句子对(总共48,000个翻译)用于人工翻译(翻译者的翻译语言是母语)。每组句子都是独立的,确保翻译不受上下文的影响,然后第二名工作人员验证随机样本子集,最终导致单词级别的错误率小于5%的数据集。
  请注意,如果最终的句子不完整或模棱两可,则我们不允许专业人员翻译。平均而言,不到2%的句子对不会被翻译,因此我们暂时将其排除在外。最终的翻译对分为新的扩展集和测试集,每个扩展集和测试集包含大约2000套句子对。
  人工翻译成德语(DE)和中文(ZH)的句子对的示例
  使用PAWS和PAWS-X理解语言
  我们在创建的数据集上训练多个模型,并在评估集上测量分类准确性。当使用PAWS训练功能强大的模型(例如BERT和DIN)时,这些模型在训练现有QQP数据集时的性能将有显着提高。
  如果在现有QQP上进行训练,则BERT只能达到33.5的准确性,但是在给出PAWS训练实例时,将使用来自QQP(PAWS-QQP)的PAWS数据,其准确性将达到83.1。但是,与BERT不同,无法从PAWS训练示例中学习“词袋”(BoW,https://en.wikipedia.org/wiki/Bag-of-words_model)模型,这也证明了其捕获非本地上下文信息的能力。弱点。但总体而言,这些结果表明PAWS可以有效地测量模型对单词顺序和结构的敏感性。
  PAWS-QQP准确性评估设置(英语)
  下图显示了在PAWS X上使用几种常用方法的主流多语言BERT模型(https://github.com/google-research/bert/blob/master/multilingual.md)的性能,其中:
  零射击:使用支持英语的PAWS数据集训练该模型,然后直接评估不涉及机器翻译的所有其他翻译。 (扩展名:零射翻译意味着完成从语言A到语言B的翻译培训后,从语言A到语言C的翻译不需要任何进一步的学习,它可以自动将先前的学习结果转换为任何翻译。即使工程师从未进行过相关培训)
  翻译测试:使用英语培训数据来训练模型,并将所有测试用例翻译成英语以进行评估。
  翻译训练:将英语训练数据机器翻译成每种目标语言,以提供训练每种模型的数据。
  合并:训练所有语言的多语言模型,包括来自原始英语对和所有其他语言的机器翻译数据。
  结果表明,新的数据集不仅为跨语言技术提供了帮助,而且还为驱动多语言复述识别留有很大空间。
  基于BERT模型的PAWS-X测试仪的准确性
  数据集下载相关
  PAWS-Wiki
  语料库包含从Wikipedia页面生成的句子对(可直接下载),包括:
  PAWS-Wik标签集(最终版本)包含从单词交换和反翻译方法生成的句子对。所有组都有对释义和流利度的人工判断,分为训练/扩展/测试部分。
  PAWS-Wik标记集(仅交换)包含一个没有反翻译副本的句子对,因此该子集不包括在第一组中。但是,该数据集质量很高,并且包含对复述和流利度的人工判断,可以用作辅助训练集。
  PAWS-Wik无标记集(最终版本)包含从单词交换和反翻译方法生成的句子对。但是,此子集中有噪声标记,但没有人工判断,它也可以用作辅助训练集。PAWS-QQP
  语料库包含从QQP语料库生成的对,但是由于QQP许可证,我们无法直接获取PAWS-QQP数据,因此我们必须通过下载原始数据然后运行脚本以生成数据并附加来重建示例。标签。
  要重建PAWS-QQP语料库,您首先需要下载原始QQP数据集并将tsv文件保存到/path/to/original_qqp/data.tsv位置。然后从特定链接下载PAWS-QQP索引文件。
  爪子X
  语料库包含六种不同语言的PAWS示例翻译,包括:法语,西班牙语,德语,中文,日语和韩语。可以在这里找到详细信息(https://github.com/google-research-datasets/paws/tree/master/pawsx)。
  请注意,对于多语言实验,请使用paws-x repo中提供的dev_2k.tsv作为所有语言(包括英语)的扩展。

 

上海IT外包服务网 链接:http://www.linemore.com

>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部