新闻抽取

新闻/数据抽取是指从非构造化或半构造化文档中提取构造化新闻的技能。新闻抽取有两部分:命名实体识别(目标是识别和分类实活着界里的出名实体)和联系提取(目标是提取实体之间的语义联系)。概率模子/分类器可以帮帮完成这些义务。

简介

新闻抽取(IE)进程是将嵌入文本中的非构造化新闻主动提取转换为构造化数据的进程。文本中举行新闻提取与文本简化题目相关联,一般目标是创立对板滞来说可读性更强的文本来处理句子。 IE一般包罗以下子义务:

大大都IE义务的第一步是找到文本中提到的专出名称(proper names)或命名实体(named entities),命名实体识别(NER)的义务是文本中查找每个提及的命名实体并标记其类型。什么构成命名实体的类型则是特定于运用顺序的,这些一般包罗职员,地方和构造,但也包罗从基因和卵白质名称到大学课程名称的少许更精细实体。

文本中找到所有提及的命名实体后,我们需求将这些实体链接或聚类到各个汇合中。

联系抽取(relation extraction)的义务是查找和分类文本实体之间的语义联系,一般是夫妇,后代,就业,附属和地舆空间上的位置联系等二元联系。联系抽取与填充联系数据库有着亲密的联络。

事情提取(event extraction)的义务是查找这些实体到场的事情,比如,美国两家航空公司的票价添加以及报告事情所述和援用的事情。 我们还需求通过查找配合之处来确定文本中提到的许众事情中的哪些援用同一个事情。

为了弄分明文本中事情的爆发时间,我们必需确认少许时间外达式(temporal expression)—— 比如礼拜几(礼拜五和礼拜四)、缘垒、节假日等 —— 以及相对外达式如现或来岁的两天以及3:30 PM 或午时。 时间外达归一化(temporal expression normalization)的题目是将这些时间外达映照到特定的日历日期或一天中的时间来及时定位事情。

着末,许众文本描画了重复呈现的刻板方式。 模板填充(template filling)的义务是文档中找到这种状况,并用恰当的材料填充模板。 这些插槽填充符可以由直接从文本中提取的文本段,或者通过附加处理从文本元素推测出的时间,金额或本体实体(ontology entities)等看法构成。

举例来说,因为航空公司常常进步票价,然后等候逐鹿对手的跟进。 这种状况下,我们可以将美联航确定为最初进步票价的主要航空公司,

从他们发外的新闻中:

Citing high fuel prices, United Airlines said Friday it has increased fares by $6 per round trip on flights to some cities also served by lowercost carriers. American Airlines, a unit of AMR Corp., immediately matched the move, spokesman Tim Wagner said. United, a unit of UAL Corp., said the increase took effect Thursday and applies to most routes where it competes against discount carriers, such as Chicago to Dallas and Denver to San Francisco.

我们可以提取价钱为6美元,礼拜四为进步价钱的日期,美国航空是随后提价的航空公司,从而变成如下所示的适用模板。

[图片及描画根源:Jurafsky, D.; Martin, J. H. (2016). Speech and Language Processing. Prentice Hall]

开展历史

最早的新闻提取义务涉及模板填充当务,并Frump系统——这个新闻抽取系统能从新闻报道中抽取新闻,如地动、罢工等范畴或场景——中举行。厥后的义务受到美国政府赞帮的MUC集会的启示, 像CIRCUS系统(这是一个语义剖析器,其计划初志重假如进步与面向语义的解析器相关的语法复晕麽坍平,和应用自然言语处理中的古板符号技能与连接技能这两种盘算范式的互补优势)以及SCISOR。Lisa F. Rau和P. S. Jacobs提出SCISOR这个系统并将其运用于财经新闻,展现了自然言语剖析当时的少许优势。这些早期的MUC系统相当有影响力,并启示了厥后的系统,如FASTUS。

因为重复运用系统或将系统从一个范畴移植到另一个范畴保管艰难,随后研讨偏向转向主动获取常识。Ellen Riloff他的论文中中描画了最早的监视进修IE的方法之一。

这些早期的进修偏重于有限形态规矩系统的常识获取进程的主动化。他们的成功——以及基于HMM的主动语音识别方法的早期成功——促成了基于序列标记的统计系统的开展。如2000年Andrew McCallum等人提出了MEMM(Maximum Entropy Markov Models),John Lafferty等人提出了CRF(conditional random fields)来支解和标记序列数据。

Fei Wu和Daniel S. Weld于2007年挑选维基百科举措初始数据源,提出了一种自我监视的板滞进修系统的原型完成,他们的初阶实行标清楚系统提取数据的精度 一种状况下与人类相当。这种方法随后被称为长途监视算法(distant supervision algorithm)。他们于2010年提出了WOE——一个绽放的IE系统(Open IE)——可分明进步TextRunner的准确度和召回率。

2013年Sebastian Riedel等人提出了一种通用方式,联合了长途监视和Open IE的优势。

目前跟着神经收集的开展,递归神经收集(RNN)和卷积神经收集(CNN)也被用于这个研讨范畴,RNN可以思索到句子的句法构造,CNN则不需求繁杂的NLP东西,更易完成。

主要事情

年份事情相关论文/Reference
1990Lisa F. Rau和P. S. Jacobs提出了SCISORJacobs, P. S. and Rau, L. F. (1990). SCISOR: A system for extracting information from on-line news. Communications of the ACM, 33(11), 88–97.
1991Wendy Lehnert和Robert Williams等学者对CIRCUS举行了议论Lehnert, W. G., Cardie, C., Fisher, D., Riloff, E., and Williams, R. (1991). Description of the CIRCUS system as used for MUC-3. In Sundheim, B. (Ed.), MUC-3, pp. 223–233.
1993Ellen Riloff他的论文中中描画了最早的监视进修IE的方法之一Riloff, E. (1993). Automatically constructing a dictionary for information extraction tasks. In AAAI-93, Washington, D.C., pp. 811–816.
2000Andrew McCallum等人提出了MEMM(Maximum Entropy Markov Models)McCallum, A., Freitag, D., and Pereira, F. C. N. (2000). Maximum entropy Markov models for information extraction and segmentation. In ICML 2000, pp. 591–598.
2001John Lafferty等人提出了CRF(conditional random fields)来支解和标记序列数据Lafferty, J. D., McCallum, A., and Pereira, F. C. N. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In ICML 2001, Stanford, CA.
2007Fei Wu和Daniel S. Weld提出了一种自我监视的板滞进修系统的原型完成Wu, F. and Weld, D. S. (2007). Autonomously semantifying Wikipedia. In CIKM-07, pp. 41–50.
2010Fei Wu和Daniel S. Weld提出了WOEWu, F. and Weld, D. S. (2010). Open information extraction using Wikipedia. In ACL 2010, pp. 118–127.
2013Sebastian Riedel等人提出了一种通用方式,联合了长途监视和Open IE的优势Riedel, S., Yao, L., McCallum, A., and Marlin, B. M. (2013). Relation extraction with matrix factorization and universal schemas. In NAACL HLT 2013.

开展剖析

瓶颈

古板的新闻抽取系统联系抽取、歧义消解、可移植性等方面才能十分有限,而随后呈现的绽放式文本新闻抽取虽然有更好的外现,但其的主要题目是缺乏标注语料。

未来开展偏向

目前绽放式文本新闻抽取仍然是主要研讨偏向;另外,因为神经收集的良好外现,怎样将新闻抽取包罗的众个子义务的内在机理和特征举行交融到场到现有神经收集模子之中也是一个研讨偏向。

Contributor:Yuanyuan Li, Mos Zhang

相关人物
丹尼尔·S·韦尔德
丹尼尔·S·韦尔德
华盛顿大学盘算机科学与工程系传授,从事主动计划和调治、软件署理和互联网新闻提取方面的研讨。
Sebastian Riedel
Sebastian Riedel
安德鲁·麦卡勒姆
安德鲁·麦卡勒姆
Andrew McCallum是马萨诸塞州阿默斯特大学盘算机科学系的传授兼研讨员。他的主要专业是板滞进修,自然言语处理,新闻提取,新闻整合和社交收集剖析。
简介
相关人物