郑丽慧 杜伟拾掇

史上最大范围:这有一份1.4亿的中文开源常识图谱

常识图谱人工智能新时代的产物,简单地说常识图谱便是通过联系联系将常识构成网状的构造,然后我们的人工智能可以通过这个图谱来看法其代外的这一个实行事情,这个事情可以是实行,也可以是虚拟的。

即日,不停努力于常识图谱研讨的 OwnThink 平台 Github 上开源了史上最大范围 1.4 亿中文常识图谱,此中数据是以(实体、属性、值),(实体、联系、实体)混淆的方式构造,数据样式采用 csv 样式。

到目前为止,OwnThink 项目绽放了对话板滞人、常识图谱、语义了解、自然言语处理东西。常识图谱交融了两千五百众万的实体,具有亿级另外实体属性联系,板滞人采用了基于常识图谱的语义感知与了解,努力于最强认知大脑。自然言语处理东西包的功用有:中文分词、词性标注命名实体识别、要害词提取、文本摘要、新词发明、心情剖析等。

  • Github 地址:https://github.com/ownthink/KnowledgeGraphData

  • ownthink 网站地址:https://www.ownthink.com/

那么 OwnThink 常识图谱的精细演示是怎样的呢?

本次 ownthink 开源的中文常识图谱,数据是以(实体、属性、值),(实体、联系、实体)混淆的方式构造,数据样式采用 csv 样式。

常识图谱演示

OwnThink 平台首页上滚动着种种要害词,用户也可输入本人念要盘诘的常识,然后就可以得出相应的常识图谱

用户输入要害词即可得出相应的常识图谱

我们以「姚明」为要害词搜寻相应的常识图谱,可以取得出诞辰期、队友道易斯·斯科拉、结业院校等相关新闻。

然后,我们点击上图中姚明的各个标签,则又会呈现这些标签的常识图谱,如点击道易斯·斯科拉,又会取得他的相关新闻:

云云轮回,点击上图中道易斯·斯科拉的各个标签,则又会呈现这些标签的相关新闻,这里就不一一展现了。

对话板滞人

OwnThink 常识图谱还可以运用于板滞人问答系统、常识引荐等等。下图为常识图谱板滞人上的运用。

基于常识图谱的对话板滞人系统。

数据下载方法:

  • 百度网盘链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 

  • 提取码: 3hpp

  • 注:解压密码是 https://www.ownthink.com/ 

  • 首页地址:https://www.ownthink.com/

运用与安装

按照上面的下载地址,拿到文献并解压后查看常识图谱范围:

$wc-lownthink_v2.csv
140919781ownthink_v2.csv

查看常识图谱数据:

$headownthink_v2.csv
实体,属性,值
胶饴,描画,又名:饴糖、畅糖、畅、软糖。
词条,描画,词条(拼音:cí tiáo)也叫似义词,是辞书学用语,指收列的词语及其释文。
词条,标签,文明
血色食物,描画,血色食物是指食物为血色、橙血色或棕血色的食物。
血色食物,中文名,血色食物
血色食物,是否含防腐剂,否
血色食物,主要食用效果,防止伤风,缓解疲倦
血色食物,适宜人群,通通人群
血色食物,用途,增强外皮细胞再生和避免皮肤衰老

运用 python 举行读取测试:

importsysimportcsv
withopen('ownthink_v2.csv','r',encoding='utf8')asfin:
reader=csv.reader(fin)
forindex,readinenumerate(reader):
print(read)

ifindex>10:
sys.exit(0)

运转以上脚本输出结果:

['实体','属性','值']
['胶饴','描画','又名:饴糖、畅糖、畅、软糖。']
['词条','描画','词条(拼音:cí tiáo)也叫似义词,是辞书学用语,指收列的词语及其释文。']
['词条','标签','文明']
['血色食物','描画','血色食物是指食物为血色、橙血色或棕血色的食物。']
['血色食物','中文名','血色食物']
['血色食物','是否含防腐剂','否']
['血色食物','主要食用效果','防止伤风,缓解疲倦']
['血色食物','适宜人群','通通人群']
['血色食物','用途','增强外皮细胞再生和避免皮肤衰老']
['血色食物','标签','非科学']
['血色食物','标签','生存']
初学开源项目常识图谱
6
相关数据
感知技能

知觉或感知是外界刺激感化于感官时,脑对外界的全体的看法和了解,为我们对外界的感官新闻举行构造和标明。认知科学中,也可看作一组顺序,包罗获取新闻、了解新闻、筛选新闻、构造新闻。与觉得差别,知觉反应的是由对象的各样属性及联系构成的全体。

人工智能技能

学术研讨范畴,人工智能一般指可以感知四周状况并接纳举动以完成最优的可以结果的智能体(intelligent agent)

词性标注技能

词性标注是指为分词结果中的每个单词标注一个准确的词性的顺序,也即确定每个词是名词、动词、形色词或其他词性的进程。

常识图谱技能

常识图谱实质上是语义收集,是一种基于图的数据构造,由节点(Point)和边(Edge)构成。常识图谱里,每个节点外示实行天下中保管的“实体”,每条边为实体与实体之间的“联系”。常识图谱是联系的最有用的外示方法。高深地讲,常识图谱便是把所有差别品种的新闻(Heterogeneous Information)连接一同而取得的一个联系收集。常识图谱供应了从“联系”的角度去剖析题目的才能。 常识图谱这个看法最早由Google提出,重假如用来优化现有的搜寻引擎。差别于基于要害词搜寻的古板搜寻引擎,常识图谱可用来更好土地诘繁杂的联系新闻,从语义层面了解用户企图,改良搜寻质料。比如Google的搜寻框里输入Bill Gates的时分,搜寻结果页面的右侧还会呈现Bill Gates相关的新闻比如出生年月,家庭状况等等。

命名实体识别技能

命名实体识别(NER)是新闻提取(Information Extraction)的一个子义务,主要涉及怎样从文本中提取命名实体并将其分类至事先规矩好的种别,如延聘新闻中提取精细延聘公司、岗亭和义务地方的新闻,并将其区分归结至公司、岗亭和地方的种别下。命名实体识别往往先将整句拆解为词语并对每个词语举行此行标注,依据习得的规矩对词语举行判别。这项义务的要害于对未知实体的识别。基于此,命名实体识另外主要思念于依据现有实例的特征总结识别和分类规矩。这些方法可以被分为有监视(supervised)、半监视(semi-supervised)和无监视(unsupervised)三类。有监视进修包罗隐形马科夫模子(HMM)、计划树、最大熵模子(ME)、支撑向量机(SVM)和条件随机场(CRF)。这些方法重假如读取解释语料库,记忆实例并举行进修,依据这些例子的特征生成针对某一种实例的识别规矩。

盘诘技能

一般来说,盘诘是讯问的一种方式。它差别的学科里涵义有所差别。新闻检索范畴,盘诘指的是数据库和新闻系统对新闻检索的准确请求

自然言语处理技能

自然言语处理(英语:natural language processing,缩写作 NLP)是人工智能和言语学范畴的分支学科。此范畴议论如那处理及运用自然言语;自然言语认知则是指让电脑“懂”人类的言语。自然言语生成系统把盘算机数据转化为自然言语。自然言语了解系统把自然言语转化为盘算机顺序更易于处理的方式。

问答系统技能

问答系统是未来自然言语处理的昭质之星。问答系统外部的方法上来看,其与目前主流资讯检索技能有两点差别:起首是盘诘方法为完备而白话化的问句,再来则是其回传的为高精准度网页结果或明晰的谜底字串。以Ask Jeeves为例,运用者不需求考虑该运用什么样的问法才干够取得抱负的谜底,只需求用白话化的方法直接提问如“请问谁是美国总统?”即可。而舷沉私庠擞谜呶示浜螅会十分分明地答复“奥巴马是美国总统”。面临这种系统,运用者不需求费心去一一检视搜寻引擎回传的网页,关于资讯检索的服从与资讯的普及都有很大帮帮。从系统内部来看,问答系统运用了大宗有别于古板资讯检索系统自然言语处理技能,如自然言语剖析(Natural Language Parsing)、题目分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统以致会运用繁杂的逻辑推理机制,来区隔出需求推理机制才干够区隔出来的谜底。系统所运用的材料上,除了古板资讯检索会运用到的材料外(如字典),问答系统还会运用本体论等语义材料,或者应用网页来添加材料的丰厚性。

百度机构

百度(纳斯达克:BIDU),举世最大的中文搜寻引擎、最大的中文网站。1999年末,身美国硅谷的李彦宏看到了中国互联网及中文搜寻引擎效劳的庞大开展潜力,抱着技能改动天下的抱负,他决然辞掉硅谷的高薪义务,携搜寻引擎专利技能,于 2000年1月1日中关村创立了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描画了词人对抱负的执兹臃求。 百度拥稀有万名研发工程师,这是中国以致举世最为精良的技能团队。这支步队掌握着天下上最为先辈的搜寻引擎技能,使百度成为中国掌握天下尖端科学中心技能的中国高科技企业,也使中国成为美国、俄罗斯、和韩国除外,举世仅有的4个具有搜寻引擎中心技能的国家之一。

http://home.baidu.com/
命名实体识技能

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定原理的实体,主要包罗人名、地名、机构名、专出名词等,以及时间、数目、货币、比例数值等文字。指的是可以用专出名词(名称)标识的事物,一个命名实体一般代外唯一一个精细事物个体,包罗人名、地名等。

暂无评论
暂无评论~