词性标注

词性标注是指为分词结果中的每个单词标注一个准确的词性的顺序,也即确定每个词是名词、动词、形色词或其他词性的进程。

根源:Wikipedia
简介

词性标注的目标是用一个独自的标签标记每一个词,该标签外示了用法和其句法感化,比如名词、动词、形色词等。

自然言语剖析中,板滞需求模拟了解言语。为了完成这一点,它必需必定程度上可以了解自然言语的规矩。它起首需求了解的是词,特别是每一个词的实质。它是一个名词照旧一个形色词?假如它是一个动词的屈折方式,那么它的未必方式是什么,以及该屈折方式运用了什么对应的时态、人称和数?这个义务被称为词性标注(Part-of-Speech (PoS) tagging)。让我们来看看下面的句子:

John bought a book (John 买了一本书)

那么,有一个直接的方法:我们可以运用一本包罗了所有这些词、它们的屈折方式和词性的新闻的辞书,以盘算下面的输出:

John/专出名词

bought/动词过去式

a/限制词

book/名词

好吧,让我们扔开如许一个终究:言语是一种极为丰厚的活性实体,于是我们永久无法晓得所有的词。如我们所睹,即使对最简单的句子而言,这种方法也没有用。bought 这个词也可作形色词,book 还可以是一个动词或名词。举措人类,我们一般可以办理这种歧义。但尝尝解读下面的句子:

Will Will will the will to Will? (可译为:Will 将会念把遗言给 Will 吗?)

真正的 NLP 运用一般运用两类方法施行义务:符号的(symbolic)和统计的(statistical)。符号方法由一组为差别言语现象(language phenomena)修模的规矩汇合构成,这些规矩一般是由人工编写的,但有时也是主动进修到的。统计方法一般运用板滞进修算法来进修言语现象。

Brill 标注器可以是最广为人知的基于规矩的词性标注器。它运用思索到语境的转换规矩。起首分派一个词性标注(最常睹的),然后运用规矩以取得准确的输出。以是假如上面的例子中「bought」起首被标注为了形色词,可以用一个规矩对其举行校正:

假如前面一个词的标注是专出名词,那么:形色词→动词

统计方法将词性标注看作是一个序列标注题目。其基本思念是:给定带有各自标注的词的序列,我们可以确定下一个词最可以的词性。例子中,假如我们曾经看到了「John bought a」,而且晓得它们的词性,那么我们就可以一定地说「book」是名词而不是动词。这十分有原理。现曾经有隐马尔可夫模子(HMM)或条件随机域(CRF)等统计模子了,这些模子可以运用有标记数据的大型语料库举行教练,而有标记的数据则是指此中每一个词都分派了准确的词性标注的文本。

[描画根源:人工智能继续进步的要害,自然言语处理概述|中文字幕AV]

词性标注被用许众主要的自然言语处理目标上:

A. 词义消歧:少许词汇依据用法有许众种意义。比如,下面的两个句子:

  • I.“Please book my flight for Delhi”
  • II. “I am going to read this book in the flight”

“Book”差别的上下文中呈现,然而这两种状况的词性标签却不相同。第一句中,“book”被用作动词,而第二句中,它被用作名词。这一点我们上文曾经涉及到。

B. 进步基于词汇的特征:当词汇举措特征时,一个进修模子可以进修赴任别的词汇上下文,然而特征与词性连接起来,上下文就被保管了,于是取得了很强的特征。比如:

  • 句 - “book my flight, I will read this book”
  • 标签 – (“book”, 2), (“my”, 1), (“flight”, 1), (“I”, 1), (“will”, 1), (“read”, 1), (“this”, 1)带有POS的标签 – (“book_VB”, 1), (“my_PRP$”, 1), (“flight_NN”, 1), (“I_PRP”, 1), (“will_MD”, 1), (“read_VB”, 1), (“this_DT”, 1), (“book_NN”, 1)

C. 标准化和词形合并(Lemmatization):词性标签是将词转化为其基本方式(引理)的根底

D. 高效移除中止词:词性标签移除中止词方面也十分有用。

比如,有少许标签老是定义低频/较低主要性的词汇。

比如:(IN – “within”, “upon”, “except”), (CD – “one”,”two”, “hundred”), (MD – “may”, “must” 等)

[描画根源:了解和完成自然言语处理终极指南(附Python代码)|中文字幕AV]

开展历史

关于词性标注的研讨与语料库言语学亲密相关。第一个用于盘算机剖析的主要英语语料库是布朗大学的Henry Kuera 和W. Nelson Francis60年代中期开辟的布朗语料库。Greene和Rubin随后花了许众年布朗语料库上举行词性标记,他们运用了一个清单来手动列出语法例则。比如冠词和名词可以一同呈现,但不行和动词一同呈现。依据这个标注器,当时取得的准确率大约70%。

一段时间以后,词性标注被认为是自然言语处理中不可支解的一部分,因为某些状况下,假如不睬解语义以致语境的运用,就无法确定准确的词性。但词性标注也十分腾贵,特别是当必需思索到每个单词的众个词功可以性时,剖析会变得很艰难。

20世纪80年代中期,欧洲的研讨职员对Lancaster-Oslo-Bergen语料库举行标记义务时,开端运用隐马尔可夫模子(HMM)来消弭词性的歧义。 HMM需求盘算频数(这可以运用其他语料库完毕,比如布朗语料库),并列出某些序列的概率。比如,一朝你看过冠词“the”,依据此前统计的频数有40%的可以接下来呈现的是名词,40%的可以是形色词,20%是数字。一朝晓得这一点,顺序就可以判别抖蒿“the can”中“can更可以是名词。

更高级的(“高阶”)HMM不光进修一对词的概率,还进修三元组以致更长的序列。举例来说,假如你方才看到一个名词,后面跟着一个动词,下一个词可以很可以是介词,冠词或名词,但不太可以是另一个动词。

也是这段时间,UCREL开辟了CLAWS,一个标注顺序,这应当也是最早的标注顺序之一,当时的准确率93–95%。

1988年,Steven DeRose和Ken Church各自独立即开辟了动态计划算法(dynamic programming) 。Steven DeRose运用了二元组(即一对单词)外格——而Ken Church运用了三元组外格——来估量布朗语料库中很少呈现或未呈现过的三元组的,两种方法都取得了95%以上的准确度,一举取得了当时自然言语处理范畴的最好外现。这个外现比当时的许众方法都好,特别是许众方法将词性标注与更高目标的言语剖析项联合。这使得这个范畴的许众人置信,词性标注可以有用地从其他处理级别平分别出来;这反过来又简化了盘算机化言语剖析的表面和实行,并饱励研讨人院弦到将自然言语处理的各部分义务分别的方法。隐马尔可夫模子是随机标注器(stochastic taggers)功用的根底,并被用于种种算法中,此中最广泛运用的是双向推理算法(bi-directional inference algorithm)。

[描画根源:维基百科]

从 2000 年代开端,统计方法变得十分风行。2000年Kristina Toutanova 和Christopher D. Manning提出了基于最大熵(Maximum Entropy )的词性标注器,其主要通过丰厚用于标注的新闻源来完成出色的功用。基于最大熵模子属于对数线性模子(log-linear model),给定教练数据的条件下对模子举行极大似然估量或正则化极大似然估量。他们取得的几个主要的进步是:(i)更好地处理未知词汇的大写字母; (ii)消弭动词时态方式; (iii)从介词和副词中去除歧义词。该标注器 Penn Treebank数据集上取得的最高准确率为96.86%,对以前未睹过的词准确率为86.91%。

同年,Andrew McCallum等人提出了MEMM(Maximum Entropy Markov Models),直接进修条件概率。MEMM重假如改良HMM的两个题目,一是其为生成模子(generative model),二是不行运用更加繁杂的feature。

2001年,John Lafferty等人提出了条件随机场(CRF),用于支解和标记序列数据。CRF是判别模子,可以通过单词本身的属性来判别标注的概率,即同样改良了HMM是生成模子的题目。从CRF 被提出开端,就词性标注义务上取得了很好的效果,目前CRF、HMM和MEMM应当是最常用的几个统计模子。Github上有一个由 William Xie 认真的课程项目,词性标注方面的义务上完成且比较了 HMM 与 MEMM,详睹附录(其他)。

2003年,Kristina Toutanova等人又提出了一种新的词性标注器,包罗几个改良,(1)该标注器可以通过通过依赖性收集外示方法(dependency network representation)运用要判另外词的前后两个标签,(2)广泛运用词汇特征,(3)条件对数线性模子中可以有用地运用先验(priors),以及(4)对未知单词特功可以举行细粒度修模(fine-grained modeling)。该标注器Penn Treebank WSJ测试集上的准确率抵达97.24%,与之前最好的简单主动进修标记结果比较,偏向淘汰了4.4%。

随后,跟着深度进修的兴起,神经收集也被用于词性标注义务上。

2016年,Barbara Plank,Anders Søgaard和Yoav Goldberg将Bi-LSTM与古板POS方法差别言语和数据大小的的义务上举行了比较。 他们还提出了一种新型的biLSTM模子,该模子运用的POS标记耗损函数可以更众的思索到很少呈现的词汇。 该模子22种言语上的测试都取得了当时的最佳功用,他们同时标清楚biLSTM对教练数据大小和标签损坏(小噪声程度下)的状况比此前假设的更不敏锐。

2018年,NAACL 2018 发布的最佳论文则是来自艾伦人工智能研讨所和华盛顿大学的研讨者所著的论文《Deep contextualized word representations》,该研讨提出了一种新型深度语境化词外征,可对词运用的繁杂特征(如句法和语义)和词运用言语语境中的改造举行修模(即对众义词举行修模)。其模子运用双向 LSTM ,结果显示较初级另外LSTM 形态可以修模句法构造(如词性标注义务)。

主要事情

年份事情相关论文/Reference
1987UCREL开辟了CLAWS,一个标注顺序,这应当也是最早的标注顺序之一Garside, R. (1987). The CLAWS Word-tagging System. In: R. Garside, G. Leech and G. Sampson (eds), The Computational Analysis of English: A Corpus-based Approach. London: Longman.
1988Steven DeRose和Ken Church各自独立即开辟了动态计划算法(dynamic programming)Church, K. W. (1988). A stochastic parts program and noun phrase parser for unrestricted text. ANLC '88: Proceedings of the second conference on Applied natural language processing. Association for Computational Linguistics Stroudsburg, PA.//DeRose, S. J. (1988). Grammatical category disambiguation by statistical optimization. Computational Linguistics 14(1): 31–39.
2000Kristina Toutanova 和Christopher D. Manning提出了基于最大熵(Maximum Entropy )的词性标注器Toutanova, K.; Manning, C. D. (2000). Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger. In Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP/VLC-2000), pp. 63-70.
2000Andrew McCallum等人提出了MEMM(Maximum Entropy Markov Models)McCallum, A., Freitag, D., and Pereira, F. C. N. (2000). Maximum entropy Markov models for information extraction and segmentation. In ICML 2000, pp. 591–598.
2001John Lafferty等人提出了CRF(conditional random fields)Lafferty, J. D., McCallum, A., and Pereira, F. C. N. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In ICML 2001, Stanford, CA.
2003Kristina Toutanova等人又提出了一种新的词性标注器,对他们此前的模子举行了几个改良Toutanova, K. et al. (2003). Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network. In Proceedings of HLT-NAACL 2003, pp. 252-259.
2016Barbara Plank,Anders Søgaard和Yoav Goldberg将Bi-LSTM与古板POS方法差别言语和数据大小的的义务上举行了比较。 他们还提出了一种新型的biLSTM模子Plank, B.; Søgaard, A.; & Goldberg, Y. (2016). Multilingual Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Models and Auxiliary Loss. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.
2018NAACL 2018 最佳论文《Deep contextualized word representations》提出了一种新型深度语境化词外征,可对词运用的繁杂特征(如句法和语义)和词运用言语语境中的改造举行修模(即对众义词举行修模)Peters, M. E. et al. (2018). Deep contextualized word representations. arXiv:1802.05365v2.

开展剖析

瓶颈

若将词性标注等差别义务区分开辟差别的算法,办理一通通题目时可以未便当联合;另外目前风行的深度进修需求大宗的数据,这词性标注题目上确实是不行够的,因此即使是针对简单题目,深度进修也没有外现出分明的优势。另外,差别言语的标注难度也差别,如目前英文词性标注准确率可以抵达97%尊驾,而中文的词性标注则要难许众。

未来开展偏向

词性标注等言语处理义务是后续任何言语处理义务的根底,其主要性显而易睹。更高、更速、众言语的标注器都是可以的开展偏向。

Contributor: Yuanyuan Li

相关人物
Kristina Toutanova
Kristina Toutanova
Kenneth Church
Kenneth Church
简介
相关人物