常识图谱运用

声明:本文转载自 普惠大数据中心



导读

常识图谱 (Knowledge Graph) 是目今的研讨热门。自从2012年Google推出本人第一版常识图谱以后,它学术界和工业界掀起了一股高潮。各大互联网企业之后的短短一年内纷纷推出了本人的常识图谱产物以举措回应。比如国内,互联网巨头百度和搜狗区分推出”密友“和”知立方”来改良其搜寻质料。那么与这些古板的互联网公司比较,对处于当今风口浪尖上的行业 - 互联网金融, 常识图谱可以有哪方面的运用呢?

目次

1.   什么是常识图谱?

2.   常识图谱的外示

3.   常识图谱的存储

4.   运用

5.   挑衅

6.   结语

1、什么是常识图谱?

常识图谱实质上是语义收集,是一种基于图的数据构造,由节点(Point)和边(Edge)构成。常识图谱里,每个节点外示实行天下中保管的“实体”,每条边为实体与实体之间的“联系”。常识图谱是联系的最有用的外示方法。高深地讲,常识图谱便是把所有差别品种的新闻(Heterogeneous Information)连接一同而取得的一个联系收集。常识图谱供应了从“联系”的角度去剖析题目的才能。

常识图谱这个看法最早由Google提出,重假如用来优化现有的搜寻引擎。差别于基于要害词搜寻的古板搜寻引擎,常识图谱可用来更好土地诘繁杂的联系新闻,从语义层面了解用户企图,改良搜寻质料。比如Google的搜寻框里输入Bill Gates的时分,搜寻结果页面的右侧还会呈现Bill Gates相关的新闻比如出生年月,家庭状况等等。


另外,关于稍微繁杂的搜寻语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就阐明搜寻引擎通过常识图谱真正了解了用户的企图。

上面提到的常识图谱都是属于比较广泛的范围,通用范畴里办理搜寻引擎优化和问答系统(Question-Answering)等方面的题目。接下来我们看一下特定范畴里的 (Domain-Specific) 常识图谱外示方法和运用,这也是工业界比较体恤的话题。

2、常识图谱的外示

假设我们用常识图谱来描画一个终究(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,联系是“父亲”(is_father_of)。当然,张三和李四也可以会跟其他人保管着某品种型的联系(暂时不思索)。当我们把电话号码也举措节点到场到常识图谱以后(电话号码也是实体),人和电话之间也可以定义一种联系叫 has_phone,便是说某个电话号码是属于某私人。下面的图就展现了这两种差别的联系。

另外,我们可以把时间举措属性(Property)添加到 has_phone 联系里来外示开通电话号码的时间。这种属性不光可以加到联系里,还可以加到实体当中,当我们把所有这些新闻举措联系或者实体的属性添加后,所取得的图谱称之为属性图 (Property Graph)。属性图和古板的RDF样式都可以举措常识图谱的外示和存储方法,但二者照旧有区另外,这将后面章节做简单阐明。

3、常识图谱的存储

常识图谱是基于图的数据构造,它的存储方法主要有两种方式:RDF存储样式和图数据库(Graph Database)。至于它们有哪些区别,请参考【1】。下面的弧线外示种种数据存储类型近来几年的开展状况。从这里我们可以分明地看到基于图的存储方法通通数据库存储范畴的飞速开展。这幅弧线图根源于 http://db-engines.com/en/blog_post//43

下面的列外外示的是目前比较风行的基于图存储的数据库排名。从这个排名中可以看出neo4j通通图存储范畴里占领着NO.1的位置,而且RDF范畴里Jena照旧目前为止最为风行的存储框架。这部分数据根源于 http://db-engines.com/en/ranking

当然,假如需求计划的常识图谱十分简单,而且盘诘也不会涉及到1度以上的联系盘诘,我们也可以挑选用联系型数据存储样式来保管常识图谱。但对那些稍微繁杂的联系收集(实行生存中的实体和联系广泛都比较繁杂),常识图谱的优点还好坏常分明的。起首,联系盘诘的服从上会比古板的存储方法有分明的进步。当我们涉及到2,3度的联系盘诘,基于常识图谱的盘诘服从会跨过几千倍以致几百万倍。其次,基于图的存储计划上会十分灵敏,一般只需求部分的改动即可。比如我们有一个新的数据源,我们只需求已有的图谱上插入就可以。于此相反,联系型存储方法灵敏性方面比较差,它所有的Schema都是提前定义好的,假如后续要改动,它的价钱好坏常高的。着末,把实体和联系存储图数据构造是一种契合通通故事逻辑的最好的方法。

4、运用

本文中,我们主要议论常识图谱互联网金融行业中的运用。当然,许众运用场景和念法都可以延迟到其他的各行各业。这里提到的运用场景只是冰山一角, 许众其他的运用上,常识图谱仍然可以发挥它潜的代价, 我们后续的作品中会继续议论。

反讹诈


反讹诈是风控中十分主要的一道要害。基于大数据的反讹诈的难点于怎样把差别根源的数据(构造化,非构造)整合一同,并构修反讹诈引擎,从而有用地识别出讹诈案件(比如身份制假,集团讹诈,代办包装等)。而且不少讹诈案件会涉及到繁杂的联系收集,这也给讹诈审核带来了新的挑衅。 常识图谱,举措联系的直接外示方法,可以很好地办理这两个题目。 起首,常识图谱供应十分便捷的方法来添加新的数据源,这一点前面提到过。其次,常识图谱本身便是用来外示联系的,这种直观的外示方法可以帮帮我们更有用地剖析繁杂联系中保管的特定的潜损害。

反讹诈的中心是人,起首需求把与乞贷人相关的所有的数据源打通,并构修包罗大都据源的常识图谱,从而整合成为一台板滞可以了解的构造化的常识。这里,我们不光可以整合乞贷人的基本新闻(比如申请时填写的新闻),还可以把乞贷人的消费记载、方法记载、网上的浏览记载等整合到通通常识图谱里,从而举行剖析和预测。这里的一个难点是许众的数据都是从收集上获取的非构造化数据,需求应用板滞进修、自然言语处理技能把这些数据变成构造化的数据。

差别等性验证

差别等性验证可以用来判别一个乞贷人的讹诈损害,这个跟交叉验证相似。比如乞贷人张三和乞贷人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完备不相同,这就成了一个损害点,需求审核职员分外的当心。

再比如,乞贷人说跟张三是朋侪联系,跟李四是父子联系。当我们试图把乞贷人的新闻添加到常识图谱里的时分,“同等性验证”引擎会触发。引擎起首会去读取张三和李四的联系,从而去验证这个“三角联系”是否准确。很分明,朋侪的朋侪不是父子联系,以是保管着分明的差别等性。

差别等性验证涉及到常识的推理。高深地讲,常识的推理可以了解成“链接预测”,也便是从已有的联系图谱里推导出新的联系或链接。 比如上面的例子,假设张三和李四是朋侪联系,而且张三和乞贷人也是朋侪联系,那我们可以推理出乞贷人和李四也是朋侪联系。


组团讹诈


比较虚假身份的识别,组团讹诈的开掘难度更大。这种构造十分繁杂的联系收集里躲藏着,禁止易被发明。当我们只要把此中隐含的联系收集梳理分明,才有可以去剖析并发明此中潜的损害。常识图谱,举措自然的联系收集的剖析东西,可以帮帮我们更容易地去识别这种潜的损害。举一个简单的例子,有些组团讹诈的成员会用虚假的身份去申请贷款,但部分新闻是共享的。下面的图大约阐清楚这种状况。从图中可以看出张三、李四和王五之间没有直接的联系,但通过联系收集我们很容易看出这三者之间都共享着某一部分新闻,这就让我们立即联念到讹诈损害。虽然组团讹诈的方式浩繁,但有一点值得一定的是常识图谱必定会比其他任何的东西供应更佳便捷的剖析手腕。 

十分剖析(Anomaly Detection)


十分剖析是数据开掘研讨范畴里比较主要的课题。我们可以把它简单了解成从给定的数据中寻得“十分”点。我们的运用中,这些”十分“点可以会联系到讹诈。既然常识图谱可以看做是一个图 (Graph),常识图谱的十分剖析也大都是基于图的构造。因为常识图谱里的实体类型、联系类型差别,十分剖析也需求把这些分外的新闻思索进去。大大都基于图的十分剖析的盘算量比较大,可以挑选做离线盘算。我们的运用框架中,可以把十分剖析分为两大类: 静态剖析和动态剖析,后面会一一讲到。 

- 静态剖析


所谓的静态剖析指的是,给定一个图形构造和某个时间点,从中去发明少许十分点(比如有十分的子图)。下图中我们可以很分明地看到此中五个点的互相厉密度十分强,可以是一个讹诈构造。以是针对这些十分的构造,我们可以做出进一步的剖析。

- 动态剖析


所谓的动态剖析指的是剖析其构造随时间改造的趋势。我们的假设是,短时间内常识图谱构造的改造不会太大,假如它的改造很大,就阐明可以保管十分,需求进一步的体恤。剖析构造随时间的改造会涉及到时序剖析技能和图相似性盘算技能。有兴味的读者可以去参考这方面的材料【2】。


失联客户办理

除了贷前的损害掌握,常识图谱也可以贷后发挥其强大的感化。比如贷后失联客户办理的题目上,常识图谱可以帮帮我们开掘出更众潜的新的联络人,从而进步催收的成功率。

实行中,不少乞贷人乞贷成功后呈现不还款现象,而且玩“捉迷藏”,联络不上本人。即使试图去联络乞贷人一经供应过的其他联络人,但照旧没有方法联络到本人。这就进入了所谓的“失联”形态,使得催收职员也无从下手。那接下来的题目是,失联的状况下,我们有没有方法去开掘跟乞贷人相联系的新的联络人? 而且这部分人群并没有以联系联络人的身份呈现我们的常识图谱里。假如我们可以开掘出更众潜的新的联络人,就会大大地进步催劳绩功率。举个例子,下面的联系图中,乞贷人跟李四有直接的联系,但我们却联络不上李四。那有没有可以通过2度联系的剖析,预测并判别哪些李四的联络人可以会看法乞贷人。这就涉及到图谱构造的剖析。


智能搜寻及可视化展现

基于常识图谱,我们也可以供应智能搜寻和数据可视化的效劳。智能搜寻的功用相似于常识图谱Google, Baidu上的运用。也便是说,关于每一个搜寻的要害词,我们可以通过常识图谱来返回更丰厚,更厉密的新闻。比如搜寻一私人的身份证号,我们的智能搜寻引擎可以返回与这私人相关的所有历史乞贷记载、联络人新闻、方法特征和每一个实体的标签(比如黑名单,同行等)。另外,可视化的好处显而易睹,通过可视化把繁杂的新闻以十分直观的方法呈现出来, 使得我们对躲藏新闻的前因后果一目清楚。 


精准营销

“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research

一个聪慧的企业可以比它的逐鹿对手以更为有用的方法去开掘其潜的客户。互联网时代,营销手腕众种众样,但不管有众少种方法,都离不开一个中心 - 剖析用户和了解用户。常识图谱可以联合众种数据源去剖析实体之间的联系,从而对用户的方法有更好的了解。比如一个公司的墟市司理用常识图谱来剖析用户之间的联系,去发明一个构造的配合喜好,从而可以有针对性的对某一类人群订定营销计谋。只要我们能更好的、更深化的(Deep understanding)了解用户的需求,我们才干更好地去做营销。

5、挑衅

常识图谱工业界还没有变成大范围的运用。即使有部分企业试图往这个偏向开展,但许众仍处于调研阶段。主要的启事是许众企业对常识图谱并不了解,或者了解不深。但有一点可以一定的是,常识图谱未来几年内必将成为工业界的热门东西,这也是从目前的趋势中很容易预测到的。当然,常识图谱终究是一个比较新的东西,以是实行运用中必定会涉及到或众或少的挑衅。

数据的噪声

起首,数据中保管着许众的噪声。即使是曾经保管库里的数据,我们也不行包管它有100%的准确性。这里主要从两个方面说起。第一,目前积聚的数据本身有过失,以是这部分过失数据需求改正。 最简单的改正方法便是做离线的差别等性验证,这点前面提过。第二, 数据的冗余。比如乞贷人张三填写公司名字为”普惠“,乞贷人李四填写的名字为”普惠金融“,乞贷人王五则填写成”普惠金融新闻效劳有限公司“。虽然这三私人都附属于一家公司,但因为他们填写的名字差别,盘算机则会认为他们三个是来自差别的公司。那接下来的题目是,怎样从海量的数据中寻得这些保管歧义的名字并将它们兼并成一个名字? 这就涉及到自然言语处理中的”消歧剖析”技能。


非构造化数据处理才能

大数据时代,很大都据都是未经处理过的非构造化数据,比如文本、图片、音频、视频等。特别互联网金融行业里,我们往往碰面临大宗的文本数据。怎样从这些非构造化数据里提取出有代价的新闻是一件十分有挑衅性的义务,这对掌握的板滞进修,数据开掘,自然言语处理才能提出了更高的门槛。


常识推理

推理才能是人类智能的主要特征,使得我们可以从已有的常识中发明隐含的常识, 一般的推理往往需求少许规矩的支撑【3】。比如“朋侪”的“朋侪”,可以推理出“朋侪”联系,“父亲”的“父亲”可以推理出“祖父”的联系。再比如张三的朋侪许众也是李四的朋侪,那我们可以推测张三和李四也很有可以是朋侪联系。当然,这里会涉及到概率的题目。当新闻量特别众的时分,怎样把这些新闻(side information)有用地与推理算法联合一同才是最要害的。常用的推理算法包罗基于逻辑(Logic) 的推理和基于分布式外示方法(Distributed Representation)的推理。跟着深度进修人工智能范畴的位置变得越来越主要,基于分布式外示方法的推理也成为目前研讨的热门。假如有兴味可以参考一下这方相貌前的义务希望【4,5,6,7】。

大数据、小样本、构修有用的生态合环是要害

虽然现能获取的数据量十分庞大,我们仍然面临着小样本题目,也便是样本数目少。假设我们需求搭修一个基于板滞进修的反讹诈评分系统,我们起首需求少许讹诈样本。但实行上,我们能拿到的讹诈样本数目未几,即使有几百万个贷款申请,着末被我们标记为讹诈的样本很可以也就几万个罢了。这对板滞进修的修模提出了更高的挑衅。每一个讹诈样本我们都是以很昂扬的“价钱”取得的。跟着时间的推移,我们必定会搜罗到更众的样本,但样本的增漫空间照旧有范围的。这有区别于古板的板滞进修系统,比如图像识别,不难拿到好几十万以致几百万的样本。

这种小样本条件下,构修有用的生态合环特别的主要。所谓的生态合环,指的是构修有用的自反应系统使其可以及时地反应给我们的模子,并使得模子不时地自优化从而晋升准确率。为了搭修这种自进修系统,我们不光要完美已有的数据流系统,而且要深化到各个营业线,并对相应的流程举行优化。这也是通通反讹诈要害须要的进程,我们要晓得通通进程都充满着博弈。以是我们需求不时地通过反应信号来调解我们的计谋。

6、结语

常识图谱学术界和工业界受到越来越众的体恤。除了本文中所提到的运用,常识图谱还可以运用权限办理,人力资源办理等差别的范畴。后续的作品中会精细地讲到这方面的运用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. InCOLD.

【2】http://www.cs.cmu.edu/~abeutel/kdd2015_tutorial/

【3】刘知远 常识图谱——板滞大脑中的常识库 http://book.thunlp.org/knowledge_graph/

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems(pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems (pp. 3167-3175).


本文根源于哈工大SCIR

原文链接点击即可跳转

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会盘算与新闻检索研讨中心

初学常识图谱初学综述图论数据数据办理
3
暂无评论
暂无评论~