自然言语处理

自然言语处理(英语:natural language processing,缩写作 NLP)是人工智能和言语学范畴的分支学科。此范畴议论如那处理及运用自然言语;自然言语认知则是指让电脑“懂”人类的言语。自然言语生成系统把盘算机数据转化为自然言语。自然言语了解系统把自然言语转化为盘算机顺序更易于处理的方式。

根源:维基百科
简介

自然言语处理是人工智能和言语学范畴的分支学科。此范畴议论如那处理及运用自然言语,特别是怎样编程盘算机以成功处理大宗的自然言语数据。

[描画根源:维基百科URL:https://en.wikipedia.org/wiki/Natural-language_processing]

NLP的基本义务包罗正则外达式、分词、词法剖析、语音识别、文天职类、新闻检索、问答系统——如对少许题目举行答复或与用户举行交互——板滞翻译等。常用的模子则有马科夫模子、朴实贝叶斯、轮回神经收集等。

我们把处理白话和书面语(统称为”言语“)的盘算机技能称为语音和言语处理,简称自然言语处理,这是一个范围很广泛的定义,这个定义包罗了从人人皆知的诸如词数盘算、主动换行等简单技能,直到诸如web上的主动问答、及时的白话主动翻译等高级技能。

自然言语处理的这些运用与其他运用系统的区别是,自然言语处理要运用言语常识。比如,UNIX的wc顺序可以用来盘算文本文献中的字节数、词数或行数。当我们用它来盘算字节数和行数时,wc只用于举行一般的数据处理。可是,当我们用它来盘算一个文献中词的数目时,就需求关于”什么事一个词“的言语常识,如许,这个wc也就成为了一个自然言语处理系统。

[描画根源:Jurafsky, D.; Martin, J. H. (2005).自然言语处理综论.冯志伟,孙乐译.电子工业出书社. ]

开展历史

描画

自然言语处理(NLP)大致是从上世纪50年代开端,1950年,图灵发外论文“Computing Machinery and Intelligence”,提出出名的“图灵测试”举措判别智能的条件。1948年Shannon把离散马尔科夫进程的概率模子运用于描画言语的主动机。Chomsky吸取了他的思念,起首把有限形态主动机举措一种东西来描写言语的语法,而且把有限形态言语定义为由有限形态语法生成的言语。这些早起的研讨义务发生了方式言语表面(formal language theory)如许的研讨范畴,采用代数和汇合论把方式言语定义为符号的序列。

这暂时代的研讨都相当根底,1954年的Georgetown的实行试图将超越60句俄文通通主动翻译成为英文,其研讨职员声称三到五年之内即可办理板滞翻译的题目。不过这项义务的实行希望远低于预期,1966年的ALPAC报揭发明研讨未达预期目标,板滞翻译的研讨经费遭到大幅淘汰。不停到1980年代末期,统计板滞翻译系统被开展出来,板滞翻译的研讨才得以更上一层楼。

1960年代开展特别成功的NLP系统包罗Winograd提出的SHRDLU——一个词汇设限、运作于受限如“积木天下”的一种自然言语系统,以及1964-1966年Joseph Weizenbaum模拟“私人中心治疗”而计划的ELIZA——确实未运用人类思念和情感的讯息,有时分却能呈现令人讶异地相似人之间的互动。但当“病人”提出的题目高出ELIZA极小的常识范围之时,可以会取得空泛的答复。比如题目是“我的头痛”,答复是“为什么说你头痛?”

这暂时代研讨者大众着重研讨推理和逻辑题目,这些简单的系统把方式立室和要害词搜寻与简单探究的方法联合起来,举行推理和主动问答,它们都只可某一个范畴内运用。但也有少许统计学者和电子学的专业研讨职员试图运用统盘算法来办理这些题目。比如Bledsoe和Browning于1959年修立了用于文本识另外贝叶斯系统来盘算字母系列的似然度,Mosteller和Wallace于1964年用贝叶斯方法来办理The Federalist作品中的原作家的分布题目。这一时代还呈现了第一个联机语料库:Brown美国英语语料库。

不停到1980年代,大都自然言语处理系统是以一套繁杂、人工订定的规矩为根底的,颇有专家系统(expert system)的味道。不过从1980年代末期开端,言语处理引进了板滞进修的算法,NLP发生改造。其成因主要有两个:运算才能稳定添加(参睹摩尔定律);以及Chomskyan言语学表面垂垂丧失主导(比如转换-生成文法-transformational grammar)。该表面的架构不偏向于语料库——板滞进修处理言语所用方法的根底。有些最早期运用的板滞进修算法,比如计划树,是硬性的、“if-then”规矩构成的系统,相似当时既有的人工订定的规矩。不过词性标记将隐马尔可夫模子(HMM)引入NLP,而且研讨日益聚焦于软性的、以概率做决议的统计模子,其根底是将输入材料里每一个特征付与代外其分量的数值。这种模子一般足以处理非预期的输入数据,特别是输入有过失时,而且整合到包罗众个子义务的较大系统时,结果比较牢靠。

近来的研讨更加聚焦于非监视式进修和半监视进修的算法。这种算法,可以从没有人工解释抱负谜底的材料里进修。大致而言,这种进修比监视进修艰难,而且同量的数据下,一般发生的结果较不准确。不过没有解释的数据量极巨,补偿了较不准确的缺陷。

近年来, 跟着深度进修的疾速开展,用于自然言语处理的模子也大幅演化,2013年Tomas Mikolov及其团队提出了word2vec,为一群用来发生词向量的相关模子,业界发生了庞大的影响。2016年Jozefowicz等学者目今模子语料库、词汇量以及繁杂的恒久言语构造方面举行了扩展,他们十亿字基准上对诸如字符卷积神经收集( character Convolutional Neural Networks )或恒久短期记忆( Long-Short Term Memory)等技能举行了精细的研讨。

主要事情

1948

Shannon把离散马尔科夫进程的概率模子运用于描画言语的主动机

Shannon, C. E. (1948).A Mathematical Theory of Communication.Bell system technical journal.

1956

Chomsky起首把有限形态主动机举措一种东西来描写言语的语法,而且把有限形态言语定义为由有限形态语法生成的言语

Chomsky, N. (1956). Three models for the description of language.IRE Transactions on Information Theory.2(3): 113-124.

1959

Bledsoe和Browning修立了用于文本识另外贝叶斯系统来盘算字母系列的似然度

Bledsoe, W. W.; Browning, I. (1959).Pattern recognition and reading by machine.IRE-AIEE-ACM '59. pp225-232.

1964

Mosteller和Wallace用贝叶斯方法来办理The Federalist作品中的原作家的分布题目

Mosteller, F.; Wallace, D. (1964).Inference and Disputed Authorship: The Federalist. Springer.

1966

Joseph Weizenbaum模拟“私人中心治疗”而提出了ELIZA

Weizenbaum, J. (1966). ELIZA—a computer program for the study of natural language communication between man and machine. Communications of the ACM. 9: 36–45.

1972

Winograd提出SHRDLU

Winograd, T. (1972).Procedures as a Representation for Data in a Computer Program for Understanding Natural Language.Cognitive Psychology.3(1).1-191.

1976

Jelinek提出了用统计模子举行主动及时的语音识别,他及IBM实行室的其他学者也是将HMM引入自然言语处理的作家

Jelinek, F. (1976). Continuous speech recognition by statistical methods.Proceedings of the IEEE.64(4): 532-556.

2013

Tomas Mikolov及其团队提出了word2vec

Mikolov, T. et al. Efficient Estimation of Word Representations in Vector Space.arXiv: 1301.3781.

2016

Jozefowicz等学者目今模子语料库、词汇量以及繁杂的恒久言语构造方面举行了扩展

Jozefowicz, R.; Vinyals, O.; Schuster, M.; Shazeer, N. and Wu, Y. (2016). Exploring the Limits of Language Modeling.arXiv:1602.02410.

开展剖析

瓶颈

目前分词的技能仍然是一个难点,特别是关于汉语如许缺乏分明词汇边境的言语,怎样准确划分差别词语十分主要;

词义消岐是NLP的另一个难点,因为某些状况下语境繁杂,会给模子的教练带来艰难;

另外便是因为言语的模糊性,缺乏可以标明言语变成的原理,也给我们模拟言语变成艰难;

着末,可以通用于众种言语的模子的数目仍然十分缺乏。

未来开展偏向

目前NLP范畴仍需求大宗研讨,十分有潜力的偏向有:

  1. 独立于义务的NLP数据增强
  2. 用于NLP的Few-shot learning
  3. 用于NLP的迁移进修
  4. 众义务进修
  5. 跨言语进修
  6. 独立于义务的架构晋升

Contributor: Yuanyuan Li

相关人物
克劳德·香农
克劳德·香农
Frederick Jelinek
Frederick Jelinek
阿夫拉姆·诺姆·乔姆斯基
阿夫拉姆·诺姆·乔姆斯基
Avram Noam Chomsky(阿夫拉姆·诺姆·乔姆斯基,生于1928年12月7日)是美国言语学家、形而上学家、认知科学家、历史学家和社会评论家。乔姆斯基有时被描画为“当代言语学之父”,他也是剖析形而上学的主要人物和认知科学范畴的创始人之一。他承当麻省理工学院(MIT)声誉退息传授、亚利桑那大学(University of Arizona)声誉传授,并著有100众本关于言语学、战役、政事和大众媒体等中心的册本,他的《生针言法》被认为是20世纪表面言语学研讨上最伟大的奉献。
约瑟夫·魏泽鲍姆
约瑟夫·魏泽鲍姆
简介
相关人物