李文哲作家

常识图谱互联网金融行业的运用

NO.1  什么是常识图谱

常识图谱实质上是语义网络,是一种基于图的数据构造,由节点(Point)和边(Edge)构成。常识图谱里,每个节点外示实行天下中保管的“实体”,每条边为实体与实体之间的“联系”。常识图谱是联系的最有用的外示方法。高深地讲,常识图谱便是把所有差别品种的新闻(Heterogeneous Information)连接一同而取得的一个联系收集。常识图谱供应了从“联系”的角度去剖析题目的才能。

常识图谱这个看法最早由Google提出,重假如用来优化现有的搜寻引擎。差别于基于要害词搜寻的古板搜寻引擎,常识图谱可用来更好地盘诘繁杂的联系新闻,从语义层面了解用户企图,改良搜寻质料。比如Google的搜寻框里输入Bill Gates的时分,搜寻结果页面的右侧还会呈现Bill Gates相关的新闻比如出生年月,家庭状况等等。

另外,关于稍微繁杂的搜寻语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就阐明搜寻引擎通过常识图谱真正了解了用户的企图。

上面提到的常识图谱都是属于比较广泛的范围,通用范畴里办理搜寻引擎优化和问答系统(Question-Answering)等方面的题目。接下来我们看一下特定范畴里的(Domain-Specific) 常识图谱外示方法和运用,这也是工业界比较体恤的话题。

专业用户独享

本文为中文字幕AV深度精选实质,专业认证后即可阅读全文
开启专业认证
初学常识工程金融自然言语处理数据开掘板滞进修语义收集常识图谱
7
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,营业起始于线上书店,不久之后商品走向众元化。目前是举世最大的互联网线上零售商之一,也是美国《财产》杂志2016年评选的举世最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技能
刘知远人物

刘知远,清华大学盘算机系副传授、博士生导师。主要研讨偏向为外示进修、常识图谱和社会盘算。2011 年取得清华大学博士学位,已 ACL、IJCAI、AAAI 等人工智能范畴的出名国际期刊和集会发外相关论文 60 余篇,Google Scholar 统计援用超越 2100 次。承当众项国家自然科学基金。曾获清华大学精良博士学位论文、中国人工智能学会精良博士学位论文、清华大学精良博士后、中文新闻学会青年立异奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者晋升方案。承当中文新闻学会青年义务委员会执委、副主任,中文新闻学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 范畴主席。

深度进修技能

深度进修(deep learning)是板滞进修的分支,是一种试图运用包罗繁杂构造或由众重非线性变换构成的众个处理层对数据举行高层笼统的算法。 深度进修是板滞进修中一种基于对数据举行外征进修的算法,至今依鳌有种深度进修框架,如卷积神经收集和深度置信收集和递归神经收集等已被运用盘算机视觉、语音识别、自然言语处理、音频识别与生物新闻学等范畴并获取了极好的效果。

板滞进修技能

板滞进修是人工智能的一个分支,是一门众范畴交叉学科,涉及概率论、统计学、迫近论、凸剖析、盘算繁杂性表面等众门学科。板滞进修表面重假如计划和剖析少许让盘算机可以主动“进修”的算法。因为进修算法中涉及了大宗的统计学表面,板滞进修与推测统计学联络尤为亲密,也被称为统计进修表面。算法计划方面,板滞进修表面体恤可以完成的,卓有用果的进修算法。

人工智能技能

学术研讨范畴,人工智能一般指可以感知四周状况并接纳举动以完成最优的可以结果的智能体(intelligent agent)

数据科学技能

数据科学,又称材料科学,是一门应用数据进修常识的学科,其目标是通过从数据中提取出有代价的部分降生产数据产物。它联合了诸众范畴中的表面和技能,包罗运用数学、统计、方式识别、板滞进修、数据可视化、数据堆栈以及高功用盘算。数据科学通过运用种种相关的数据来帮帮非专业人士了解题目。

常识库技能

常识库是用于常识办理的一种特别的数据库,以便于相关范畴常识的搜罗、拾掇以及提取。常识库中的常识源于范畴专家,它是求解题目所需范畴常识的汇合,包罗基本终究、规矩和其它相关新闻。

常识图谱技能

常识图谱实质上是语义收集,是一种基于图的数据构造,由节点(Point)和边(Edge)构成。常识图谱里,每个节点外示实行天下中保管的“实体”,每条边为实体与实体之间的“联系”。常识图谱是联系的最有用的外示方法。高深地讲,常识图谱便是把所有差别品种的新闻(Heterogeneous Information)连接一同而取得的一个联系收集。常识图谱供应了从“联系”的角度去剖析题目的才能。 常识图谱这个看法最早由Google提出,重假如用来优化现有的搜寻引擎。差别于基于要害词搜寻的古板搜寻引擎,常识图谱可用来更好土地诘繁杂的联系新闻,从语义层面了解用户企图,改良搜寻质料。比如Google的搜寻框里输入Bill Gates的时分,搜寻结果页面的右侧还会呈现Bill Gates相关的新闻比如出生年月,家庭状况等等。

数据库技能

数据库,简而言之可视为电子化的文献柜——存储电子文献的地方,用户可以对文献中的数据运转新增、截取、更新、删除等操作。 所谓“数据库”系以必定方法贮保管一同、能予众个用户共享、具有尽可以小的冗余度、与运用顺序互相独立的数据汇合。

数据开掘技能

数据开掘(英语:data mining)是一个跨学科的盘算机科学分支 它是用人工智能、板滞进修、统计学和数据库的交叉方法相對較大型的数据汇合发明方式的盘算进程。 数据开掘进程的总体目标是从一个数据汇合提取新闻,并将其转换成可了解的构造,以进一步运用。

准确率技能

分类模子的准确预测所占的比例。众种别分类中,准确率的定义为:准确的预测数/样本总数。 二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技能

人工智能范畴用逻辑来了解智能推理题目;它可以供应用于剖析编扯蒿言的技能,也可用作剖析、外征常识或编程的东西。目昔人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技能技能

大数据,又称为巨量材料,指的是古板数据处理运用软件缺乏以处理它们的大或繁杂的数据集的术语。

语义网技能

语义网是由万维网联盟的蒂姆·伯纳斯-李1998年提出的一个看法,它的中心是:通过给万维网上的文档蒂姆加可以被盘算机所了解的语义,从而使通通互联网成为一个通用的新闻交换前言。语义万维网通过运用标准、置标言语和相关的处理东西来扩展万维网的才能。

盘诘技能

一般来说,盘诘是讯问的一种方式。它差别的学科里涵义有所差别。新闻检索范畴,盘诘指的是数据库和新闻系统对新闻检索的准确请求

自然言语处理技能

自然言语处理(英语:natural language processing,缩写作 NLP)是人工智能和言语学范畴的分支学科。此范畴议论如那处理及运用自然言语;自然言语认知则是指让电脑“懂”人类的言语。自然言语生成系统把盘算机数据转化为自然言语。自然言语了解系统把自然言语转化为盘算机顺序更易于处理的方式。

交叉验证技能

交叉验证,有时亦称轮回估量, 是一种统计学上将数据样本切割成较小子集的适用方法。于是可以先一个子集上做剖析, 而其它子集则用来做后续对此剖析确实认及验证。 一开端的子集被称为教练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模子教练阶段,以便淘汰像过拟合的题目,取得该模子将怎样衍生到一个独立的数据集的提示。

问答系统技能

问答系统是未来自然言语处理的昭质之星。问答系统外部的方法上来看,其与目前主流资讯检索技能有两点差别:起首是盘诘方法为完备而白话化的问句,再来则是其回传的为高精准度网页结果或明晰的谜底字串。以Ask Jeeves为例,运用者不需求考虑该运用什么样的问法才干够取得抱负的谜底,只需求用白话化的方法直接提问如“请问谁是美国总统?”即可。而舷沉私庠擞谜呶示浜螅会十分分明地答复“奥巴马是美国总统”。面临这种系统,运用者不需求费心去一一检视搜寻引擎回传的网页,关于资讯检索的服从与资讯的普及都有很大帮帮。从系统内部来看,问答系统运用了大宗有别于古板资讯检索系统自然言语处理技能,如自然言语剖析(Natural Language Parsing)、题目分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统以致会运用繁杂的逻辑推理机制,来区隔出需求推理机制才干够区隔出来的谜底。系统所运用的材料上,除了古板资讯检索会运用到的材料外(如字典),问答系统还会运用本体论等语义材料,或者应用网页来添加材料的丰厚性。

引荐作品
暂无评论
暂无评论~