问答系统

问答系统是未来自然言语处理的昭质之星。问答系统外部的方法上来看,其与目前主流资讯检索技能有两点差别:起首是盘诘方法为完备而白话化的问句,再来则是其回传的为高精准度网页结果或明晰的谜底字串。以Ask Jeeves为例,运用者不需求考虑该运用什么样的问法才干够取得抱负的谜底,只需求用白话化的方法直接提问如“请问谁是美国总统?”即可。而舷沉私庠擞谜呶示浜螅会十分分明地答复“奥巴马是美国总统”。面临这种系统,运用者不需求费心去一一检视搜寻引擎回传的网页,关于资讯检索的服从与资讯的普及都有很大帮帮。从系统内部来看,问答系统运用了大宗有别于古板资讯检索系统自然言语处理技能,如自然言语剖析(Natural Language Parsing)、题目分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统以致会运用繁杂的逻辑推理机制,来区隔出需求推理机制才干够区隔出来的谜底。系统所运用的材料上,除了古板资讯检索会运用到的材料外(如字典),问答系统还会运用本体论等语义材料,或者应用网页来添加材料的丰厚性。

根源:维基百科
简介

问答系统外部的方法上来看,其与目前主流资讯检索技能有两点差别:起首是盘诘方法为完备而白话化的问句,再来则是其回传的为高精准度网页结果或明晰的谜底字串。以Ask Jeeves为例,运用者不需求考虑该运用什么样的问法才干够取得抱负的谜底,只需求用白话化的方法直接提问如「请问谁是美国总统?」即可。而舷沉私庠擞谜呶示浜螅会十分分明地答复「奥巴马是美国总统」。面临这种系统,运用者不需求费心去一一检视征采引擎回传的网页,关于资讯检索的服从与资讯的普及都有很大帮帮。从系统内部来看,问答系统运用了大宗有别于古板资讯检索系统自然言语处理技能,如自然言语剖析(Natural Language Parsing)、题目分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统以致会运用繁杂的逻辑推理机制,来区隔出需求推理机制才干够区隔出来的谜底。系统所运用的材料上,除了古板资讯检索会运用到的材料外(如字典),问答系统还会运用本体论等语义材料,或者应用网页来添加材料的丰厚性。

问答系统承受的是自然言语问句,为了有用掌握研讨变因,众会定制可承受的题目类型来限制研讨范围。最基本的类型为「仿真陈述问答」(Factoid Question Answering),此类系统依据谜底语料所述资讯,取出一小段字串举措谜底。因为谜底的准确与否是依据谜底语料的实质来决议,实行生存中不必定为真,故称为仿真陈述问答。有些系统把问答范围进一步缩小,限制人、地、构造等明晰的专出名词上。若此类系统有才能答复如「请摆列美国历届总统」这种清单型的问句,则称为「清单问答」(List Question Answering);若能答复定义题目,则称为「定义问答」( Definition Question Answering);以此类推槐ボ定义出其他类型的题目。除了这些与问句资讯实质相关的类型外,近来评鉴集会引进如「时间限制题目」(Temporally Restricted Questions)与「序列题目」(Series of Questions)等繁杂的题目类型。时间限制型的题目会问句中明晰指出谜底的时间范围限制,比如说以「民国九十年时的国民党主席是谁」这问句来说,系统必需有依据谜底语料构造化材料,或上下文来推论准确谜底的才能。序列题目则把问答系统未来的运用定位互动式的系统上。颠末来回众次问答的方法来满意运用者的资讯需求。了解这些题目类型分类,有帮于研讨范围界定,同时剖析比较上也比较有依据。

我们可以从常识范畴、谜底根源等角度来替问答系统做分类。从常识范畴来看,可分为「封合范畴」以及「绽放范畴」两类系统。封合范畴系统笃志于答复特定范畴的题目,如医药或特定公司等。因为题目范畴受限,系统有比较大的发挥空间,可以导入如专属本体论等常识,或将谜底根源通通转换成构造性材料,来有用晋升系统的外现。绽放范畴系统则期望不设限题目的实质范围,天文地舆无所不问。系统中所有常识与元件都必需尽量做到与范畴不相关,当然难度也相对地进步。

若依据谜底根源来区分,可分为「常识库问答」、「常问题目问答」、「新闻问答」、「网际网道问答」等系统。常识库是最常睹的构造化材料储存前言,我们下面临其举行简单先容。虽然透过操控SQL言语便可以有用率地存取材料,但有些系统试图供应更直觉的自然言语盘诘介面,期望能进一步低沉进修门槛。

[描画根源:维基百科 URL:https://zh.wikipedia.org/wiki/%E5%95%8F%E7%AD%94%E7%B3%BB%E7%B5%B1]

常识库问答(knowledge base question answering, KB-QA)即给定自然言语题目,通过对题目举行语义了解息争析,进而应用常识库举行盘诘、推理得出谜底。如下图所示:


KB-QA 具有以下特性:

1. 谜底:答复的谜底是常识库中的实体或实体联系,或者 no-answer(即该题目 KB 中找不到谜底),当然这里谜底不必定独一,比如中国的都会有哪些 。

2. 评判标准:回召率(Recall),准确率(Precision)),F1-Score。

当我们百度讯问 2016 年奥斯卡最佳男主角时,百度会依据常识库举行盘诘和推理,返答复案,这实便是 KB-QA 的一个运用。

[图片及描画根源:揭开常识库问答KB-QA的面纱1·简介篇|中文字幕AV]

开展历史

早1961年,Green就开展了第一个问答系统,用来答复单季美国职棒大联盟相关竞赛题目。该系统施行于IBM 7090平台,以今日的看法来看,其硬体资源相当贫瘠,但因为问答的范围狭隘,系统准确率尚能抵达令人满意的境地。受限于当时的技能程度,早期的问答系统阵势部是封合范畴系统。出名的项目有上个世纪60年代研制的LUNAR系统,专事答复相关阿波罗登缘赖回的月球岩石样本的地质剖析题目。SHRDLE 是另一个基于人工智能的专家系统,模拟的是板滞人玩具积木天下中的操作,板滞人可以答复这个玩具天下的几何形态的题目,并听从言语指令举行合法操作。

20世纪70年代和80年代,盘算言语学归纳表面的开展,导致了文本了解和问答的野心勃勃的项目标开展。这种系统的一个例子是Unix参谋(UC),由Robert WilenskyU.C伯克利20世纪80年代末期开辟。该系统答复了与Unix操作系统相关的题目。它具有一个较厉密的手工计划的范畴常识库。另一个项目是LILOG,一个文本了解系统,德国都市的旅游新闻范畴运作。

1999年,搜寻业界的第八届年会(TREC-8:Text REtrieval Conference)决议添加一个问答系统的竞赛,美国国防部出名的DARPA项目资帮,由美国国家标准局构造施行,这是绽放式问答系统的正式降生。但早期的问答系统研讨并不随手,而且当时的相关算法(如新闻抽取)外现也不敷先辈,不停到2010年后,问答系统才又一次变成了研讨热门。

2013年,Jonathan Berant等人教练了一个可扩展到Freebase的语义解析器。 他们从问答对中进修,而不是依赖于解释的逻辑方式,因为这关于大范围获取来说特别腾贵。 此修立中的主要挑衅是缩小给定题目的大宗可以的逻辑谓词。 他们以两种方法办理这个题目:起首,我们运用常识库和大型文本语料库构修从抖蒿到谓词的大约映照。 其次,他们运用桥接操作基于相邻谓词生成其他谓词。

2014年Antoine Bordes, Sumit Chopra, Jason Weston先容的系统运用了向量修模,该系统进修运用少量人工计划的特征从常识库中答复关于广泛中心的题目。 他们的模子进修单词和常识库因素的低维嵌入; 这些外示用于依据候选谜底对自然言语题目举行评分。

2015年,Li Dong等人针对当时大大都系同一般依赖于手工制制的功用和规矩来举行题目了解和/或谜底排名,引入了众列卷积神经收集(MCCNN)来从三个差别方面(即谜底道径,谜底上下文和谜底类型)了解题目并进修它们的分布式外示。他们运用FREEBASE举措常识库,并WEBQUESTIONS数据集上举行大宗实行。实行结果外明,与基线系统比较,他们的方法具有更好或相当的功用。另外,他们开辟了一种盘算差别列收集中题目词的显着性得分的方法,有帮于直观地了解MCCNN的进修实质。

同年,来自微软的Scott Wen-tau Yih和Jianfeng Gao等人提出了一种新的语义解析框架,用于运用常识库举行问答。 他们定义了一个相似于常识库子图的盘诘图,可以直接映照到逻辑外单。 语义解析被简化为盘诘图生成,被公式化为分阶段搜寻题目。他们的方法早期应用常识库来修剪搜寻空间,从而简化语义立室题目。 通过运用先辈的实体链接系统和立室题目和谓词序列的深度卷积神经收集模子,他们的系统WebQuestions数据集上完成了52.5%的F1测量。

因为自然言语处理中的大大都义务都可以转换为言语输入的题目答复(QA)题目,2017年,Ankit Kumar和Richard Socher等人改良了动态内存收集(DMN),这是一种处理输入序列和题目,变成状况记忆并生成相关谜底的神经收集系统构造。 题目触发迭代当心进程,该进程容许模子将其当心力放输入和先前迭代的结果上。 然后分层递归序列模子中推导出这些结果以发生谜底。 DMN可以端到端地举行培训,并几品种型的义务和数据集上取得了当时最先辈的结果:问答(Facebook的bAbI数据集),心情剖析的文天职类(斯坦福心情树库)和序列修模 词性标注(WSJ-PTB)。 对这些差别义务的教练完备依赖于教练有素的单词矢量外示和输入 - 题目 - 谜底三元组。

2018年,Adams Wei Yu , David Dohan , Minh-Thang Luong认为目前的端到端板滞阅读和问答(Q&A)模子主要基于带当心力机制的轮回神经收集(RNN)。尽管它们取得了必定程度的成功,但因为 RNN 的序列特征,这些模子的斗嗽糍度和推测速率一般较慢。他们提出了一个名为 QANet 的新型问答系统框架,它不再需求轮回收集:其编码器仅仅由卷积和自当心力机制构成,卷积可以对部分互相感化修模,而自当心力机制可以对全部互相感化修模。 SQuAD 数据集上,QANet 模子的斗嗽糍度晋升到对应的 RNN 模子的 3 到 13 倍、推测速率晋升到 4 到 9 倍,而且取得了和轮回模子同等的准确率。他们将 QANet 模子和运用神经板滞翻译模子回译取得的数据联合了起来。 SQuAD 数据集上,他们运用增强的数据教练的模子测试集上取得了 84.6 的 F1 值,这远远优于当时公然的最佳模子 81.8 的 F1 值。

同年,跟着近年来常识库的疾速开展,基于常识库的问答系统(KBQA )吸引了业界的广泛体恤。该类问答系统承袭先编码再比较的计划思道,即先将题目和常识库中的三元组联合编码至同一的向量空间,然后该向量空间内做题目和候选谜底间的相似度盘算。该类方法简单有用,可操作性比较强,然而无视了许众自然言语词面的原始新闻。于是,Yingqi Qu, Jie Liu, Liangyi Kang, Qinfeng Shi, Dan Ye提出了一种 Attentive RNN with Similarity Matrix based CNN(AR-SMCNN)模子,应用 RNN 和 CNN 本身的构造特性分层提取有用新闻。文中运用 RNN 的序列修模实质来捕捉语义级联系,并运用当心绪制同时跟踪实体和联系。同时,文中运用基于 CNN 的相似矩阵和双向池化操作修模数据间空间相关性的强度来盘算词语字面的立室程度。另外,文中计划了一种新的实体检测启示式扩展方法,大大低沉了噪声的影响。文中的方法准确性和服从上都超越了 SimpleQuestion 基准测试的当时最好程度。

主要事情

年份事情相关论文/Reference
19611961年,Green就开展了第一个问答系统,用来答复单季美国职棒大联盟相关竞赛题目Green, B., Wolf, A., Chomsky, C., and Laughery, K. (1986). BASEBALL: an automatic question answerer. Readings in natural language processing, Morgan Kaufmann Publishers Inc. pp. 545-549.
1971SHRDLE 是另一个基于人工智能的专家系统,模拟的是板滞人玩具积木天下中的操作,板滞人可以答复这个玩具天下的几何形态的题目,并听从言语指令举行合法操作Winograd, T. (1971). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language. MIT AI Technical Report 235.
1973出名的早期问答系统:LUNAR,专事答复相关阿波罗登缘赖回的月球岩石样本的地质剖析题目Woods, WA. (1973). Progress in Natural Language Understanding - an application to lunar geology.  American Federation of Information Processing Societies. pp. 441-450.
2013Jonathan Berant等人教练了一个可扩展到Freebase的语义解析器Berant, J.; Chou, A.; Frostig, R. et al. (2013). Semantic Parsing on Freebase from Question-Answer Pairs. EMNLP. 2(5): 6.
2014Antoine Bordes, Sumit Chopra, Jason Weston先容的系统运用了向量修模Bordes, A.;  Chopra, S.; Weston, J. (2014).  Question answering with subgraph embeddings. arXiv preprint arXiv:1406.3676.
2015Li Dong等人针对当时大大都系同一般依赖于手工制制的功用和规矩来举行题目了解和/或谜底排名,引入了众列卷积神经收集(MCCNN)Dong L, Wei F, Zhou M, et al. (2015). Question Answering over Freebase with Multi-Column Convolutional Neural Networks. ACL (1): 260-269.
2017Ankit Kumar和Richard Socher等人改良了动态内存收集(DMN)Kumar, A. et al. (2017). Ask Me Anything: Dynamic Memory Networks for Natural Language Processing. arXiv:1506.07285.
2018Adams Wei Yu , David Dohan , Minh-Thang Luong他们提出了一个名为 QANet 的新型问答系统框架,它不再需求轮回收集Yu, A. W.; Dohan, D.; Luong, M.-H. (2018). QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION. ICLR2018.
2018Yingqi Qu, Jie Liu, Liangyi Kang, Qinfeng Shi, Dan Ye提出了一种 Attentive RNN with Similarity Matrix based CNN(AR-SMCNN)模子,应用 RNN 和 CNN 本身的构造特性分层提取有用新闻。Qu, Y.; Liu, J.; Kang, L.; Shi, Q.; Ye, D. (2018). Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN. arXiv:1804.03317.

开展剖析

瓶颈

自然言语问句的了解是智能问答系统中最中心也是最艰难的一个要害, 因为这个要害实行上要办理的题目是怎样将自然言语最准确地转化为盘算机可以外示和了解的方式。这个不光是智能问答系统需求办理的题目,也是人工智能范畴所需求办理的最中心的艰难之一。另外,目前的常识库远远不行满意开辟范畴智能问答系统对常识资源的需求,更况且现绝大大都的常识都保管于非构造化的文本数据中。差别范畴的众个常识资源库是保管的,但怎样将所有异构的常识源同一同来,变成一个方式同一的常识源满意用户的同一盘诘需求也是一个题目。

未来开展偏向

  • 问答系统的运用是一个对话进程,而需求语义接地,即将自然言语映照到内部的外征,怎样定义和运用语义外征是一个中心题目。
  • 言语了解的众义性、众样性题目。虽然迄今有许众研讨,但仍然没有基本办理。
  • 言语和常识,既可以由符号外征,又可以由向量外征(神经外征),各有优缺陷,怎样将符号处理和深度进修联合是一个主要的题目。
  • 问答系统是一个繁杂的系统,需求举行目标化和模块化处理,怎样构修如许的系统,并使其具有主动进修功用也是一个大题目。
  • 板滞进修的数据往往是不敷的,这使得端对端教练系统变得艰难,小样本的条件下教练模子是需求办理的主要课题。

Contributor: Yuanyuan Li

相关人物
杰森·韦斯顿
杰森·韦斯顿
Facebook的研讨科学家。伦敦大学Royal Holloway和新泽西州Red Bank的AT&T Research取得板滞进修博士学位(参谋:Alex Gammerman,Volodya Vovk和Vladimir Vapnik) 。从2000年到2002年,承当纽约Biowulf技能公司的研讨员。 从2002年到2003年,承当德国图宾根马克斯普朗克生物掌握论研讨所的研讨科学家。 从2003年到2009年,承当普林斯顿NEC实行室美国的研讨职员。 从2009年到2014年,承当纽约谷歌的研讨科学家。 板滞进修,NLP,语音,视觉和生物新闻学范畴发外众篇论文,包罗ICML和ECML的最佳论文奖。 谷歌,举措YouTube团队的一员,该团队博得了美国国家电视艺术与科学学院艾美奖,用于视频发明特征化引荐引擎的技能和工程奖。
理查德·索切
理查德·索切
Richard Socher(理查德·索赫尔)是Salesforce的首席科学家。 此之前,他是斯坦福大学盘算机科学系的兼职传授,也是2016年被Salesforce收购的MetaMind的创始人兼首席施行官/首席技能官。研讨兴味:深度进修、自然言语处理和盘算机视觉。
梁明堂(音)
梁明堂(音)
谷歌大脑研讨科学家,努力于用深度进修办理言语了解题目。博士结业于斯坦福大学NLP组,研讨神经板滞翻译,师从Christopher Manning传授。
简介
相关人物