AAAI 2020 | 基于众义务自监视进修的文本顺滑研讨

论文名称:Multi-Task Self-Supervised Learning for Disfluency Detection
论文作家:王少磊,车万翔,刘琦,秦鹏达,刘挺,王威廉
原创作家:王少磊

下载链接:http://ir.hit.edu.cn/~slwang/AAAI-WangS.1634.pdf

1 文本顺滑义务简介

主动语音识别(ASR)取得的文本中,往往含有大宗的不流利现象。这些不流利现象会对后面的自然言语了解系统(如句法剖析,板滞翻译等)变成告急的搅扰,因为这些系统往往是比较流利的文本上教练的。不流利现象主要分为两部分,一部分是ASR系统本身识别过失变成的,另一部分是speaker话中自带的。NLP范畴主要体恤的是speaker话中自带的不流利现象,ASR识别过失则属于语音识别研讨的范围。顺滑 (Disfluency Detection)义务的目标便是要识别出speaker话中自带的不流利现象。

图1 顺滑示例 

Speaker话中自带的不流利现象主要分为两大类,区分为Filler类型和Edit类型。以英文为例,Filler类型主要包罗“uh”“oh”等语气词,以及“so”“well”等话语标记语。Filler类型的一个特性是其对应的不流利部分属于一个封合的抖蒿汇合,于是,应用简单的规矩或者板滞进修模子就可以很好地识别Filler类型。Edit类型主要包罗重复,以及被后面的抖蒿所改正的部分。图1是一个英文顺滑义务的示例。例句中,“um”“I mean”属于Filler类型,“to Boston”则属于Edit类型,其被后面的“to Denver”所改正。Edit类型是顺滑义务中最难处理的类型,因为Edit类型的抖蒿长度不固定,呈现的位置比较灵敏,以致会呈现嵌套的构造。于是,顺滑相关的研讨主要汇合Edit类型的处理上(后面的实质默认处理的是Edit类型)。关于顺滑义务,目前主要用到的语料是English Switchboard数据,中文上还没有公然的语料。

2 义务动机

目前阵势部文本顺滑义务上的义务都告急依赖人工标注数据。为了淘汰对有标注数据的依赖,我们实验用监视进修的方法来处理文本顺滑义务。

监视进修可以看作是一种特别的有监视进修,跟古板有监视进修方法的主要区别是其用到的标签不是通过人工标注的,而是通过必定的方法主动发生的。比如将一张图片切分成若干个子块,然后将随机打乱序次的子块举措输入,准确的排列序次就可以举措有监视的标签。自然言语处理范畴,词嵌入言语模子进修等都可以归类于监视进修。受相关研讨义务的启示,我们提出了两种针对文本顺滑义务的监视进修义务,实行结果标明我们的方法能有用淘汰对有标注数据的依赖,只应用1%尊驾的有标注数据就能完成与之前最好方法相似的功用。

3 方法先容

如图2所示,我们的方法主要由三部分构成,第一部分是构制伪数据,第二部分是基于构制的伪数据,对两个自监视义务举行预教练,第三部分则是基于预教练的结果,人工标注的文本顺滑数据上举行微调。

图2 方法全体框架 

3.1 构制伪数据

我们构制了两类伪数据,是平常句子(取改正闻语料)根底上随机添加少许词,是平常句子根底上随机删除少许词。

关于类型,我们主要采用两种方法添加扰动:

  • Repetition(k): 从第k个词的位置开端随机采纳1到6个词举行重复操作。

  • Inserting(k) : 第k个位置之前随机插入1到6个词(从新闻语料当采纳的N-gram)

关于一个平常的句子,我们一般随机采纳1到3个位置,然后随机采纳一种方法添加扰动。需求当心的是,添加扰动后的句子也有必定几率是平常的句子(比如名词之前随机添加了少许形色词),如许可以会带来分外的噪声。我们构制数据的时分并没有针对这种状况举行特别处理,因为数据量足够大的时分,这些噪声带来的影呼应当会十分小。

关于类型,我们一般随机采纳1到3个位置,然后针对每个位置,随机删除掉1到6个词。

需求当心的是,我们的实行进程当中,一个句子一般只被用来构制一品种型的非顺滑句子,以防直ィ型进修到少许统计性法则(比如中心长度的句子一般是顺滑的)。

3.2 自监视义务以及微调

我们主要计划了两种监视进修的义务,第一种是序列标注义务,第二种是句子对分类义务。

关于序列标注义务,起首将非顺滑的句子输入到Transformer编码器中,取得每个词的外示。教练目标是识别出来被添加的非顺滑词,此中我们用标签D外示该词是被添加的冗余词,标签O则外示该词是原始句子中的词。虽然的数据分布和实行的文本顺滑数据分布差别,可是其教练目标都是通过删除冗余的词来保持生成的句子的流利性,以是我们认为该预教练义务会对后续的文本顺滑义务带来许众有用的新闻。

句子对分类义务的输入是两个句子,此中一句话是平常的新闻句子,另一句是该新闻句子根底上构制的非顺滑句子()。教练目标是识别出哪句话是平常的新闻句子。我们假定该义务可以捕捉句子级的语法新闻,从而对后续的文本顺滑义务带来帮帮。

如图3所示,预教练的时分,我们采用众义务进修的方法,同时对两个自监视义务举行教练。输入层和中心外示层,我们采用与BERT(Devlin et al., 2019) 相似的Transformer构造。着末一步微调的时分,我们直接用预教练时分的输入层,中心外示层和序列标注的输出层参数来初始化(图3中黄色部分)。

图3 模子构造

4 实行结果及剖析

4.1 实行修立

我们English Switchboard(SWBD)数据集上测试我们方法的功用。

关于伪数据部分,我们总共用到了1200万的数据,此中300万用来教练序列标注义务,900万用来教练句子分类义务。我们将Transformer模子大小修立为512 hidden units, 8 heads, 6 hidden layers。

4.2 实行结果

我们与五个目前功用最好的方法举行了比较,这些方法都依赖于大范围的人工标注数据和繁杂的人工特征。如外1所示,我们的方法优于之前最好的方法,取得了90.2%的F1分数。特别是,当只用1%(1000句)的人工标注数据的状况下,我们的方法取得了与以前功用最好的方法毗临近的F1分数,这外明我们的自监视方法可以大大淘汰对人工标注数据的依赖。

外1  与之前线法比照。此中“Full”外示所有有标注数据举行微调,“1000sents”外示1%(1000句)有标注数据举行微调

4.3 与BERT模子比照

与BERT比较,我们的方法可以看作是一个针对特定义务的预教练,本节主要比照我们模子和BERT模子文本顺滑义务上的功用。结果如外2所示,虽然我们的预教练语料范围和模子参数都比BERT小,可是当用通通人工标注数据举行微调时,我们取得了与BERT相似的结果。特别是当只用1%(1000句)尊驾人工标注数据举行微调时,我们的方法比BERT要高3.7个点尊驾。着末,我们实验将我们模子和BERT模子联合起来,精细做法是微调时,将我们模子和BERT模子的隐层输出联合起来做序列标注义务,实行结果标明模子联合之后能取得更高的功用,这也标清楚我们的模子进修到了BERT除外的对顺滑义务有帮帮的新闻。

外2 与BERT比照   

5 总结

本义务中,我们提出了两个监视进修义务来缓解文本顺滑义务对有标注数据的依赖。实行结果标明我们的方法只应用1%尊驾的有标注数据就能完成与之前最好方法相似的功用,大大减轻了对有标注数据的依赖。

目前只是英文数据上标清楚我们义务的有用性,能否中文等数据上取得好的效果另有待验证。

参考文献

[Devlin et al., 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL.

[Ferguson et al., 2015] James Ferguson, Greg Durrett, and Dan Klein. 2015. Disfluency detection with a semi-markov model and prosodic features. In Proceedings of NAACL, pages 257–262.

[Lou and Johnson, 2017] Paria Jamshid Lou and Mark Johnson. 2017. Disfluency detection using a noisy channel model and a deep neural language model. Proceedings of ACL.

[Wang et al., 2017] Shaolei Wang, Wanxiang Che, Yue Zhang, Meishan Zhang, and Ting Liu. 2017. Transition-based disfluency detection using lstms. In Proceedings of EMNLP, pages 2785–2794.

[Wu et al., 2015] Shuangzhi Wu, Dongdong Zhang, Ming Zhou, and Tiejun Zhao. 2015. Efficient disfluency detection with transition-based parsing. In Proceedings of ACL-IJCNLP 2015, pages 495–503. Association for Computational Linguistics.

[Zayats et al., 2016] Vicky Zayats, Mari Ostendorf, and Hannaneh Hajishirzi. 2016. Disfluency detection using a bidirectional lstm. arXiv preprint arXiv:1604.03209.

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会盘算与新闻检索研讨中心

表面自监视进修AAAI 2020
1
相关数据
刘挺人物

哈工大人工智能研讨院副院长,国内NLP偏向领军人物。

板滞进修技能

板滞进修是人工智能的一个分支,是一门众范畴交叉学科,涉及概率论、统计学、迫近论、凸剖析、盘算繁杂性表面等众门学科。板滞进修表面重假如计划和剖析少许让盘算机可以主动“进修”的算法。因为进修算法中涉及了大宗的统计学表面,板滞进修与推测统计学联络尤为亲密,也被称为统计进修表面。算法计划方面,板滞进修表面体恤可以完成的,卓有用果的进修算法。

自然言语了解技能

自然言语了解是人工智能的中心课题之一,也被广泛认为是最艰难和最具标记性的义务。最经典的两私人工智能思念实行——图灵测试和中文房间,都是盘绕自然言语了解来构修的。自然言语了解人工智能技能系统中的主要性显而易睹,它一方面承载着板滞和人的交换,另一方面直达常识和逻辑。自然言语了解也是人工智能学者孜孜以求的圣杯,板滞进修的巨擘 Michael I. Jordan 就一经 Reddit 上的 AMA(Ask Me Anything)栏目中畅念用十亿美元修立一个特别用于自然言语了解的实行室。

词嵌入技能

词嵌入是自然言语处理(NLP)中言语模子与外征进修技能的统称。看法上而言,它是指把一个维数为所有词的数目标高维空间嵌入到一个维数低得众的延续向量空间中,每个单词或词组被映照为实数域上的向量。

参数技能

数学和统计学裡,参数(英语:parameter)是运用通用变量来修立函数和变量之间联系(岛镶种联系很难用方程来阐述时)的一个数目。

板滞翻译技能

板滞翻译(MT)是应用板滞的力气「主动将一种自然言语(源言语)的文本翻译成另一种言语(目标言语)」。板滞翻译方法一般可分成三大类:基于规矩的板滞翻译(RBMT)、统计板滞翻译(SMT)和神经板滞翻译(NMT)。

监视进修技能

监视式进修(Supervised learning),是板滞进修中的一个方法,可以由标记好的教练汇合学到或修立一个方式(函数 / learning model),并依此方式推测新的实例。教练集是由一系列的教练典范构成,每个教练典范则由输入对象(一般是向量)和预期输出所构成。函数的输出可以是一个延续的值(称为回归剖析),或是预测一个分类标签(称作分类)。

语音识别技能

主动语音识别是一种将口头语音转换为及时可读文本的技能。主动语音识别也称为语音识别(Speech Recognition)或盘算机语音识别(Computer Speech Recognition)。主动语音识别是一个众学科交叉的范畴,它与声学、语音学、言语学、数字信号处理表面、新闻论、盘算机科学等浩繁学科厉密相连。因为语音信号的众样性和繁杂性,目前的语音识别系统只可必定的限制条件下取得满意的功用,或者说只可运用于某些特定的场合。主动语音识别人工智能范畴占领着极其主要的位置。

自然言语处理技能

自然言语处理(英语:natural language processing,缩写作 NLP)是人工智能和言语学范畴的分支学科。此范畴议论如那处理及运用自然言语;自然言语认知则是指让电脑“懂”人类的言语。自然言语生成系统把盘算机数据转化为自然言语。自然言语了解系统把自然言语转化为盘算机顺序更易于处理的方式。

众义务进修技能

言语模子技能

言语模子常常运用许众自然言语处理方面的运用,如语音识别,板滞翻译,词性标注,句法剖析和资讯检索。因为字词与句子都是恣意组合的长度,于是教练过的言语模子中会呈现不曾呈现的字串(材料希罕的题目),也使得语料库中估算字串的机率变得很艰难,这也是要运用近似的腻滑n元语法(N-gram)模子之启事。

自监视进修技能

一个例子中的实质特别众,而用一个例仔■一个义务,就等于把其他的实质糜费了,于是我们需求从一个样本中寻得众个义务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个义务。那么通过遮挡差别的部分,就可以用一个样本完毕差别义务。Yann Lecun描画的这个方法被业界称作「自监视进修」

引荐作品
暂无评论
暂无评论~