常识图谱

常识图谱实质上是语义收集,是一种基于图的数据构造,由节点(Point)和边(Edge)构成。常识图谱里,每个节点外示实行天下中保管的“实体”,每条边为实体与实体之间的“联系”。常识图谱是联系的最有用的外示方法。高深地讲,常识图谱便是把所有差别品种的新闻(Heterogeneous Information)连接一同而取得的一个联系收集。常识图谱供应了从“联系”的角度去剖析题目的才能。 常识图谱这个看法最早由Google提出,重假如用来优化现有的搜寻引擎。差别于基于要害词搜寻的古板搜寻引擎,常识图谱可用来更好土地诘繁杂的联系新闻,从语义层面了解用户企图,改良搜寻质料。比如Google的搜寻框里输入Bill Gates的时分,搜寻结果页面的右侧还会呈现Bill Gates相关的新闻比如出生年月,家庭状况等等。

简介

“常识图谱(Knowledge Graph)”的看法由Google公司2012年提出,是指其用于晋升搜寻引擎功用的常识库。常识图谱的呈现是人工智能对常识需求所导致的必定结果,但其开展又得益于许众其他的研讨范畴,涉及专家系统、言语学、语义网、数据库,以及新闻抽取等浩繁范畴,是交叉交融的产物而非一脉相承。下图展现的是众范畴配合增进常识图谱开展的联系图。

[描画根源:中文字幕AV;URL:/articles/2017-11-03-24]

常识图谱又称为科学常识图谱,图书情报界称为常识域可视化或常识范畴映照地图,是显示常识开展进扯蓦构造联系的一系列种种差别的图形,用可视化技能描画常识资源及其载体,开掘、剖析、构修、绘制和显示常识及它们之间的互相联络。通过将运用数学、图形学、新闻可视化技能、新闻科学等学科的表面与方法与计量学引文剖析、共现剖析等方法联合,并应用可视化的图谱气候地展现学科的中心构造、开展历史、前沿范畴以及全体常识架构抵达众学科交融目标的现署表面。为学科研讨供应实的、有代价的参考。

[描画根源:百度百科;URL:https://baike.baidu.com/item/%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1/8120012?fr=aladdin]

例子:2012年5月,谷歌开端美国的搜寻引擎中添加了常识图谱外框,并年末前拓展到国际范围。比如用谷歌搜寻Thomas Jefferson时,搜寻结果页显示的常识图谱如下图所示(此为2015年1月搜寻的结果)。

[描画根源:wikipedia;URL:https://en.wikipedia.org/wiki/Knowledge_Graph]

开展历史

描画

常识图谱的早期开展

早上个世纪70年代,专家系统(Expert Systems)举措人工智能的主要分支,是指应用常识和推理进程来办理那些借帮人类专家常识才干得已办理的题目的盘算机顺序。八十年代,专家系统的开展激增,日本的五代机项目便是这时代开端的,专家系统是其中心部分。专家系同一般由两部分构成:常识库与推理引擎。人类专家供应常识,再将这种显式的常识映照并存储到常识库顶用来推理。

Cyc是这一时代较为精美的项目,由Douglas Lenat1984年设立,旨搜罗生存中常识常识并将其编码集成到一个厉密的本体常识库。Cyc常识库中的常识运用特别计划的CycL举行外示。同其他专家系统相同,Cyc不光包罗常识,而且供应了十分众的推理引擎,支撑演绎推理和归结推理。目前Cyc常识库涉及50万条看法的500万条常识常识。OpenCyc是其绽放出来免费供大众运用的部分常识,包罗24万条看法的约240万条常识常识。

对词汇的了解是解读自然言语的要害,言语学家所创制的辞书为人类而非板滞的阅读供应了便当,虽然有电子辞书的保管,但板滞仍无法很好的从中获取词汇寄义。1985年,普林斯顿大学看法科学实行室心思学传授乔治·A·米勒的指点下开端修立和维护名为WordNet的英语字典,旨为辞函牍息和当代盘算供应更加有用的联合,为盘算机顺序供应可读性较强的线词汇数据库。WordNet中,名词、动词、形色词以及副词被按照认知上的同义词分组,称为synsets,每一个synset外征一个确定的看法。synset之间通过看法语义以及词汇联系链接。汉语中,相似的典范代外有《同义词词林》及其扩展版、知网(HowNet)等,都是从言语学的角度,以看法为最基本的语义单位构修起来的可以被盘算机处理的汉语辞书。

这些早期的常识图谱都是应用相关范畴专家举行人工构修,具有很高的准确率和应用代价,可是其构修进程耗时耗力而且保管掩盖性较低的题目。

链接数据与基于百科常识的常识图谱构修

1989年万维网的呈现,为常识的获取供应了极大的便当,1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网(Semantic Web),其初志是让板滞也同人类相同可以很好地获取并运用常识。差别于人工智能中教练板滞使之具有和人类相同的认知才能,语义网直接向板滞供应可直接用于顺序处理的常识外示。但语义网是一个较为宏观的念象而且其计划模子是“自顶向下”的,导致其很难落地,学者们渐渐将核心转向数据本身。

2001年,一个名为维基百科(Wikipedia)的举世性众言语百科全书协作方案开启,其主旨是为全人类供应自的百科全书,短短几年的时间里应用举世用户的协作完毕数十万词条(至今具有上百万词条)常识。维基百科的呈现促进了许众基于维基百科的构造化常识的常识库的构修,DBpedia、Yago等都属于这一类常识库。

2006年,伯纳斯·李提出链接数据(Linked Data)的看法,饱励大师将数据公然并遵照必定的准绳(2006年提出4条准绳,2009年精简为3条准绳)将其发布互联网中,链接数据的主旨是期望数据不光仅发布于语义网中,而需求修立起数据之间的链接从而变成一张庞大的链接数据网。此中,最具代外性的当属2007年开端运转的DBpedia项目,是目前已知的第一个大范围绽放域链接数据。

DBpdia项目最初是由柏林自大学和莱比锡大学的学者发动的,其初志是缓解语义网当时面临的窘境,第一份公然数据集2007年时发布,通过自授权的方法容许他人运用。莱比锡大学的学者认为大范围收集新闻的状况下古板“自上而下”地数据之前计划本体是不实行的,数据及其元数据应当跟着新闻的添加而不时完美。数据的添加和完美可以通过社区成员协作的方法举行,但这种方法涉及数据的同等性、不确定性,以及隐式常识的同一外示等诸众题目。莱比锡大学的学者等人认为探究这些题目最首要并高效的方法便是供应一个实质丰厚的众元数据语料,有了如许的语料便可以极大促进诸如常识推理、数据的不确定办理技能,以及开辟面向语义网的运营系统。朝着链接数据的念象,DBpedia常识库应用语义网技能,如资源描画框架(RDF),与浩繁常识库(如WordNet、Cyc等)修立链接联系,构修了一个范围庞大的链接数据收集。

DBpedia主要通过社区成员来定义和撰写准确的抽取模版,从维基百科中抽取构造化新闻(如,infobox)构修大范围常识库,另外本体(即常识库的元数据、schema)的构修也是通过社区成员协作完毕的。因为维基百科是社区撰写,其常识外达不免有差别等的状况,DBpedia应用mapping技能与抽取模版来完成常识描画的同一与同等性。另外,为了完成常识的更新与扩增,DBpedia开辟DBpediaLive来保持与维基百科的同步。2016年发行的版本中,DBpedia具有超越6百万实体及其数十亿终究常识,此中人工构修的本体库包罗760种种别新闻。同时,DBpedia具有大宗的跨言语常识,共具有除英语外的66亿其他言语终究常识。

Yago是由德国马普研讨所于2007年开端的项目,针对当时的运用仅运用简单源配景常识的状况,修立了一个高质料、高掩盖的众源配景常识的常识库。前面先容的专家构修的WordNet具有极高的准确率的本体常识,但常识掩盖度仅限于少许常睹的看法或实体;比较之下,维基百科包含丰厚的实体常识,但维基百科众供应的看法的目标构造相似标签构造并不准确,直接用于本体构修并不适合。Yago的主要思道是将WordNet与维基百科二者的常识联合,即应用WordNet的本体常识增补维基百科中实体的上位词常识,从而获取大范围高质料、高掩盖的常识库。截至目前,Yago具有超越1万万实体的1.2亿条终究常识,同时近些年也构修起了与其他常识库的链接联系。

2007年,Freebase开端构修,相似维基百科,实质主要来自其社区成员的奉献,但与维基百科最大的差别之处于Freebase中都是构造化的常识,维基百科中人们编辑的是作品,而Freebase中编辑的是常识。Freebase中,用户是其主要中心,除了对实体的编辑,用户也到场本体库的构修、常识的校正,以及与其他常识库的链接义务。除人工输入常识,Freebase也主动导入常识,如维基百科的构造化常识。Freebase具有大约2万万实体,目前被Google公司收购,Freebase的API效劳曾经关合但仍供应数据的下载。

2012年,思索到维基百科中阵势部的常识都好坏构造构造起来的,带来诸众题目(如:无法对常识举行有用的搜寻与剖析,进而常识无法取得很好的重用,以致保管常识的差别等性的现象),维基媒体基金会推出Wikidata项目,一个相似于Freebase的大范围社区成员协作常识库,旨用一种全新的方法办理常识以抑制以上的保管于维基百科中的题目。

以上所先容的常识图谱都是基于英文言语的,即使是众言语常识图谱也是以英文为主言语,其他言语常识是用过跨言语常识(如,言语间链接(ILLs)、三元组对齐(TWA))链接取得。近些年,国内推出了大宗以中文为主言语的常识图谱,它们主要都是基于百度百科和维基百科的构造化新闻构修起来的。如上海交通大学的zhishi.me、清华大学的XLore、复旦大学的CN-pedia。2017年,由国内众所高校发动cnSchema.org项目,旨应用社区力气维护绽放域常识图谱的Schema标准。

基于自文本的绽放域常识图谱构修

上述先容的常识图谱的构修方法包罗人工编辑和主动抽取,但主动抽取方法重假如基于线百科中构造化新闻而疏忽了非构造化文本,而互联网中阵势部的新闻恰恰是以非构造化的自文本方式呈现。与链接数据开展的同期,许众基于新闻抽取技能的常识获取方法被提出,用以构修基于自文本的绽放域常识图谱。

2007年,华盛顿大学Banko等人率先提出绽放域新闻抽取(OIE),直接从大范围自文本中直接抽取实体联系三元组,即头实体、联系指示词,以及尾实体三部分,相似于语义网中RDF标准的SPO构造。OIE提出之前,也有许众面向自文本的新闻抽取被提出,但这些方法主要的思道都是为每个目标联系教练相应的抽取器。这类古板的新闻抽取方法面临互联网文本中海量的联系种别时无法高效义务,即为每个目标联系教练抽取器时不实行的,更为告急的是许众状况下面临海量的收集文本我们无法事先明晰联系的类型。OIE通过直接识别联系词组(relation phrases)也称联系指示词,即显式外标明体联系的词组,来抽取实体联系。基于OIE的指点思念,华盛顿大学延续推出TextRunner、Reverb、OLLIE等基于自文本的绽放域三元组抽取系统;以及卡耐基梅隆大学的NELL系统、德国马普研讨中心的PATTY等。这些系统有的需求主动构制标注的教练语料,进而从中提取联系模版或教练分类器;有的则依据语法或句法特征直接从剖析结果中抽取联系三元组。

Reverb针对之前的OIE系统中保管的两个题目:不连贯抽取与新闻缺失抽取,提出句法束缚:关于众词语联系词组,必需以动词开端、以介词完毕,而且是由句子中毗连的单词构成。该束缚可以有用缓解以上两个题目变成的抽取糜烂。进一步,为了避免由句法束缚带来的冗长的而且过于明晰的联系指示词,Reverb引入了启示式的词法束缚。总的来说,Reverb提出了两个简单却高效的束缚,面向英文自文本的绽放域常识抽取中取得了不错的效果,很具启示原理。

never-ending learning被定义为是一种差别于古板的板滞进修方法,通过不时地阅读获取常识,并不时晋升进修常识的才能以及应用所学常识举行推理等逻辑思念。NELL便是一种如许的智能体,其义务是进修怎样阅读网页以获取常识。

主动构修的绽放域中文实体常识图谱

上述所先容的OIE系统大众笃志于对绽放域实体联系三元组的抽取,但疏忽了关于常识图谱不可或缺的同时也是至关主要的本体库的构修,即常识图谱元数据或称为Schema的构修,是为三元组赋以语义的要害。2014年,由哈尔滨工业大学社会盘算与新闻检索研讨中心发动的《大词林》项目,面向包罗自文本的众新闻源对实体的种别新闻举行主动抽取并目标化,进而完成对实体上下位联系系统的主动构修,而上下位联系系统恰是本体库的中心构成之一。

[描画根源:中文字幕AV;URL:/articles/2017-11-03-24]

主要事情

年份

事情

相关论文/Reference

1985

Douglas Lenat设立Cyc

Lenat, D. B., Prakash, M., & Shepherd, M. (1985). CYC: Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks. AI magazine, 6(4), 65.

2007

DBpedia项目开端运转,

Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., & Ives, Z. (2007). Dbpedia: A nucleus for a web of open data. In The semantic web (pp. 722-735). Springer, Berlin, Heidelberg.

2007

Freebase开端构修

Bollacker, K., Cook, R., & Tufts, P. (2007, July). Freebase: A shared database of structured general human knowledge. In AAAI (Vol. 7, pp. 1962-1963).

2015

卡耐基梅隆大学提出NELL系统

Mitchell, T. M., Cohen, W. W., Hruschka Jr, E. R., Talukdar, P. P., Betteridge, J., Carlson, A., ... & Lao, N. (2015, January). Never Ending Learning. In AAAI (pp. 2302-2310).

开展剖析

瓶颈

常识图谱的开展还处于初级阶段,常识库的主动扩展,异构常识处理,推理规矩进修,跨言语检索等方面还面临着浩繁挑衅。

未来开展偏向

跟着互联网中实体词的添加,常识图库将不时扩充其数据范围并到场实体间联系、实体属性等网状联系构造。

Contributor: Yueqin Li

相关人物
汤姆·M·米切尔
汤姆·M·米切尔
TOM M.Mitchell是卡内基梅隆大学的传授,教学“板滞(AAA)的主席:美国《Machine Leaming》杂志、国际板滞进修年度集会(ICML)的创始人:众种技能杂志的撰稿人,曾发外过许众作品,出书过众本专著,是板滞进修范畴的出名学者。
简介
相关人物