命名实体识别

命名实体识别(NER)是新闻提取(Information Extraction)的一个子义务,主要涉及怎样从文本中提取命名实体并将其分类至事先规矩好的种别,如延聘新闻中提取精细延聘公司、岗亭和义务地方的新闻,并将其区分归结至公司、岗亭和地方的种别下。命名实体识别往往先将整句拆解为词语并对每个词语举行此行标注,依据习得的规矩对词语举行判别。这项义务的要害于对未知实体的识别。基于此,命名实体识另外主要思念于依据现有实例的特征总结识别和分类规矩。这些方法可以被分为有监视(supervised)、半监视(semi-supervised)和无监视(unsupervised)三类。有监视进修包罗隐形马科夫模子(HMM)、计划树、最大熵模子(ME)、支撑向量机(SVM)和条件随机场(CRF)。这些方法重假如读取解释语料库,记忆实例并举行进修,依据这些例子的特征生成针对某一种实例的识别规矩。

根源:David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification
简介

命名实体识别(NER)是新闻提取(Information Extraction)的一个子义务,主要涉及怎样从文本中提取命名实体并将其分类至事先规矩好的种别,如延聘新闻中提取精细延聘公司、岗亭和义务地方的新闻,并将其区分归结至公司、岗亭和地方的种别下。

命名实体识别往往先将整句拆解为词语并对每个词语举行标注,依据习得的规矩对词语举行判别。这项义务的要害于对未知实体的识别。基于此,命名实体识另外主要思念于依据现有实例的特征总结识别和分类规矩。这些方法可以被分为有监视(supervised)、半监视(semi-supervised)和无监视(unsupervised)三类。有监视进修包罗隐形马科夫模子(HMM)、计划树、最大熵模子(ME)、支撑向量机(SVM)和条件随机场(CRF)。这些方法重假如读取解释语料库,记忆实例并举行进修,依据这些例子的特征生成针对某一类实例的识别规矩。有监视进修的缺陷于这些算法需求大宗解释语料库的输入,而对语料举行解释耗时,有时以致基本不实行。于是少许半监视的算法受到了青睐,因为它们只需求轻度监视。比如依据正则化外达式,将{Isaac Asimov, The Robots of Dawn} 改写为[A-Z][A-Za-z .,&][A-Za-z.],从而将一个例子扩展至所有册本的作家和题目。随后新输入的实体就可以依据这个规矩举行判别。另一类命名实体识另外方法是无监视的,主要运用了聚类算法。通过权衡实体之间的语境相似性并将实体划入与其相似度最高的一类,无监视方法不需求大宗解释语料库的输入就可以举行命名实体识别。

[描画根源:维基百科 URL:https://en.wikipedia.org/wiki/Named_entity]

[描画根源:David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification. URL: http://nlp.cs.nyu.edu/sekine/papers/li07.pdf]

[描画根源:Sekine, Satoshi. (1998). Nyu: Description of the Japanese NE System Used For Met-2. Message Understanding Conference. URL: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.106.9393 ]

开展历史

命名实体识另外根源可以追溯至上世纪50年代,当时的运用范围主要为从论文和医疗记载中提取构造化实体,并于80年代将范围扩展至新闻报道。1991年起关于这项义务的研议论文开端延续发外。跟着研讨的深化,识别少许新闻单位,如名字、机构、地方,和数字外达式,如日期、百分比,关于定义识别义务变得至关主要,1996年R. Grishman和Sundheim于第六次新闻了解大会(MUC-6)提出了命名实体(Named entity)的看法。

早期的命名实体识别主要汇合识别人名、地方和构造,有一部分启事是当时的模子主要依赖于人工订定的规矩(Hand-made Rule-based ),即先由研讨职员依据语法、句法等总结规矩,并编制语料库,才干将模子举行实行运用。这些模子的教练不光费时辛劳、资本昂扬,而且对其运用范围有很大限制。一朝供应的文本和教练的文本所需求识另外命名实体种别完备差别,或者文本的言语差别,就可以对模子的外现变成很大影响。这种模子的好处于它们所教练的命名实体种别上外现十分好,而且可以提取繁杂的实体。随后开展的基于板滞进修的NER系统(Machine Learning-based NER system )不再将命名实体识别视为一个识别题目(identification problem),而是分类题目(classification problem)。 应用统计模子和板滞进修算法,模子模拟文本内部可以保管的联系并据此对文本中的词汇举行分类,从而完毕命名实体的识别。同时代另有一类模子联合基于规矩的进修方法(rule-based)和基于板滞进修的方法(machine learning-based)两种方法的优势来取得更好的结果,这种模子被称为混淆模子(Hybrid NER system)。这类模子的外现确实很好,但因为模子引入了基于规矩的进修方法,其缺陷也被承袭了下来。

近年来随兹釉然言语处理(NLP)的开展,命名实体识别举措自然言语处理的主要预处理方法的主要性不时添加。关于命名实体识别方法的进修也是热门之一,但目前研讨重假如对目前已有方法外现的测试、新范畴的运用,或对已有方法的联合。

主要事情

年份事情相关论文
1991Lisa F. Rau发外的论文描画了一种能“提取并识别公司名称”的系统Lisa F. R. (1991). Extracting Company Names from Text. IEEE Conference
1996Grishman和Sundheim引入命名实体(Named entity)和模板元素(Template element)的看法Grishman, R.; Sundheim, B. (1996). Message Understanding Conference - 6: A Brief History. International Conference on Computational Linguistics
2004因为命名实体种另外添加,Sekine和Nobata定义了命名实体目标(named entity hierarchy)Sekine, S.; Nobata, C. (2004). Definition, Dictionaries and Tagger for Extended Named Entity Hierarchy. *Conference on Language Resources and Evaluation
2005TIMEX2社区提出了关于时间外达式的解释和标准化的阐述标准Ferro, Lisa; Gerber, L.; Mani, I.(2005). Sundheim, B.; Wilson G. TIDES 2005 Standard for theAnnotation of Temporal Expressions. The MITRE Corporation.

开展剖析

瓶颈

一方面,命名实体识别依赖于大宗解释语料库的题目通过运用半监视、无监视进修取得了缓解,但这一题目仍未取得彻底办理。另一方面,当教练出的模子用于识别另一类实体时,模子的外现往往会下降。现有方法教练出的模子泛化才能需求晋升。

另外一个难点是怎样包管模子语境繁杂的状况下仍然能准确的举行命名实体识别。论文等需求标准化写作的作品往往较容易对其举行新闻的剥离和了解,但另少许文字(如微博)是高度不标准的,而且会给命名实体识别变成艰难。

未来开展偏向

大数据时代变成了教练数据量大,但同时数据实质稠浊的特性,于是命名实体识别必需可以众言语、高语境的繁杂状况下保持稳定的外现。无监视、半监视进修或者混淆模子应当是一个开展偏向。

Contributor: Yuanyuan Li

相关人物
Satoshi Sekine
Satoshi Sekine
Ralph Grishman
Ralph Grishman
简介
相关人物