语音识别

主动语音识别是一种将口头语音转换为及时可读文本的技能。主动语音识别也称为语音识别(Speech Recognition)或盘算机语音识别(Computer Speech Recognition)。主动语音识别是一个众学科交叉的范畴,它与声学、语音学、言语学、数字信号处理表面、新闻论、盘算机科学等浩繁学科厉密相连。因为语音信号的众样性和繁杂性,目前的语音识别系统只可必定的限制条件下取得满意的功用,或者说只可运用于某些特定的场合。主动语音识别人工智能范畴占领着极其主要的位置。

根源:What is Automatic Speech Recognition?
简介

主动语音识别是一种将口头语音转换为及时可读文本的技能。主动语音识别也称为语音识别(Speech Recognition)或盘算机语音识别(Computer Speech Recognition)。主动语音识别是一个众学科交叉的范畴,它与声学、语音学、言语学、数字信号处理表面、新闻论、盘算机科学等浩繁学科厉密相连。因为语音信号的众样性和繁杂性,目前的语音识别系统只可必定的限制条件下取得满意的功用,或者说只可运用于某些特定的场合。主动语音识别人工智能范畴占领着极其主要的位置。

根源

[1]. 维基百科

[2]. 百度百科

[3]. What is Automatic Speech Recognition?

根源URL

[1]. https://en.wikipedia.org/wiki/Speech_recognition

[2]. https://baike.baidu.com/item/主动语音识别/5807980?fr=aladdin

[3]. http://support.docsoft.com/help/whitepaper-asr.pdf

Siri通过主动语音识别,将用户的语音转换为系统可读的文字后举行指令的反应。

开展历史

1952年,三位贝尔实行室的研讨职员研讨出了天下上第一个能识别10个英文数字发音的系统。该系统被广泛认为是主动语音识别系统的初阶。60年代以后,语音识别技能取得了长足开展。日本的东京大学和NEC实行室,美国的卡耐基梅隆大学,以及前苏联的科学家们,接踵提出了几种语音识另外基本看法,为以后主动语音识另外开展打下了坚实的根底。70年代后,孤单词识别从表面上得以完美,并曾经可以适用。另一方面,IBM和贝尔实行室等少许研讨机构,开端把研讨中心从孤单词识别系统转到了实验研讨大词汇延续语音识别。80年代最光芒的成绩于技能的中心从模版立室挪动到了统计模子方法,特别是隐马尔可夫模子(Hidden Markov Model,HMM)的表面和方法取得了长足的开展。80年代后期,神经收集50年代后又一次被从头运用到语音识别上来。90年代以后,HMM取得了打破性希望,语音识别技能突飞大进。21世纪以后,语音识别运用如雨后春笋,Siri等语音帮忙开端普及。近年,因为盘算机硬件和神经收集(Deep Neural Network, DNN)的迅猛开展,基于DNN的主动语音识别取得了惊人成绩。

主要事情

年份事情相关论文
1982马尔可夫进程语音识别中大获成功Levinson, S. E., Rabiner, L. R., & Sondhi, M. M. (1983). An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition. The Bell System Technical Journal, 62(4), 1035-1074.
1983最大似然延续语音识别中的运用被提出Bahl, L. R., Jelinek, F., & Mercer, R. L. (1983). A maximum likelihood approach to continuous speech recognition. IEEE transactions on pattern analysis and machine intelligence, (2), 179-190.
1989李开复博士用隐马尔可夫模子(HMM)完成了非特定语言人的语音识别Lee, K. F., & Hon, H. W. (1989). Speaker-independent phone recognition using hidden Markov models. IEEE Transactions on Acoustics, Speech, and Signal Processing, 37(11), 1641-1648.
1991隐马尔可夫模子(HMM)语音识别中已取得庞大希望Huang, X. D., Ariki, Y., & Jack, M. A. (1990). Hidden Markov models for speech recognition (Vol. 2004). Edinburgh: Edinburgh university press.
1994神经收集和隐马尔可夫模子的混淆方法开端语音识别中取得运用Bourlard, H. A., & Morgan, N. (2012). Connectionist speech recognition: a hybrid approach (Vol. 247). Springer Science & Business Media.
2005LSTM语音识别中的运用Graves, A., & Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks, 18(5), 602-610.
2011语音识别东西包kaldi的出生,加速了语音识别研讨的希望Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. EPFL-CONF-192584). IEEE Signal Processing Society.
2012深度进修降栏Hinton的经典论文。自此,DNN语音识别中广泛运用Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97.
2013微软深度进修语音识别中的少许希望和效果Deng, L., Li, J., Huang, J. T., Yao, K., Yu, D., Seide, F., ... & Gong, Y. (2013, May). Recent advances in deep learning for speech research at Microsoft. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8604-8608). IEEE.
2014卷积神经收集语音识别中的运用Abdel-Hamid, O., Mohamed, A. R., Jiang, H., Deng, L., Penn, G., & Yu, D. (2014). Convolutional neural networks for speech recognition. IEEE/ACM Transactions on audio, speech, and language processing, 22(10), 1533-1545.
2015Attention模子语音识别中的运用Chorowski, J. K., Bahdanau, D., Serdyuk, D., Cho, K., & Bengio, Y. (2015). Attention-based models for speech recognition. In Advances in Neural Information Processing Systems (pp. 577-585).

开展剖析

瓶颈

目前语音识别非嘈杂状况的单语言人状况中曾经可以取得超越人类语音识另外结果。可是嘈杂状况中,特别是鸡尾酒会题目(cocktail party)中,语音识别仍然有一段道需求走。噪声与人声的分别,差别人声的分别,差别间隔的噪声人声分别等等,是目前语音识另外一大开展瓶颈。

未来开展偏向

正如瓶颈中所描画的相同,嘈杂状况中的非特定人语言以及大都人语言的语音识别将是未来的一大开展偏向。怎样有用低沉信噪比,分别对语音识别系统有用的人声信号和种种状况中的非特定噪声信号,仍然是研讨的要点。

Contributor: Yuanchao Li

相关人物
李锦辉
李锦辉
邓力
邓力
邓力,本科结业于中国科学技能大学,随后威斯康星大学麦迪逊分校获的硕士和博士学位。曾任微软人工智能首席科学家。邓力2009 年就同 Geoffrey Hinton 传授协作,首次提出并将深度神经收集运用到大范围言语识别中,分明进步了板滞对语音的识别率,极大促进了人机交互范畴的开展与进步。2017年5月,他到场了市值300亿美元的对冲基金Citadel并承当首席人工智能官。
俞栋
俞栋
俞栋,语音识别与深度进修范畴的专家,现任腾讯AI Lab(人工智能实行室)副主任。俞栋曾语音识别范畴出书了两本专著并发外过大宗论文,也是60项专利的发明人及深度进修开源软件CNTK的发感人和主要作家之一。
李海洲
李海洲
李海洲传授现任新加坡国立大学电气与盘算机工程系终身传授,同时也是澳大利亚新南威尔士大学传授、国际语音通信学会 (ISCA) 首位华人主席、亚洲自然言语处理协会 (AFNLP) 主席、亚太信号与新闻处理学会(APSIPA)主席、美国电气与电子工程师学会(IEEE)音频、语音、和言语处理汇刊总编。李海洲传授国际期刊上已发外了 500 余篇技能论文和学术论文,并众次获最佳论文奖。研讨偏向包罗语言人识别,人声分别,语音识别、语音剖析处理,新闻检索、板滞进修和数字信号处理等众个范畴。研讨效果自 2008 年起美国国家标准与科技局年度评测中首屈一指。2018年8月,李海洲传授到场厦门速商通科技股份有限公司,承当速商通首席科学家,厉密指点速商通新加坡人工智能研讨院。
简介
相关人物