好坏期记忆收集

好坏期记忆(Long Short-Term Memory) 是具有恒久记忆才能的一种时间递归神经收集(Recurrent Neural Network)。 其收集构造含有一个或众个具有可遗忘和记忆功用的单位构成。它1997年被提出用于办理古板RNN(Recurrent Neural Network) 的随时间反向传达中权重消逝的题目(vanishing gradient problem over backpropagation-through-time),主要构成部分包罗Forget Gate, Input Gate, 和 Output Gate, 区分认真决议目今输入是否被采用,是否被恒久记忆以及决议记忆中的输入是否目今被输出。Gated Recurrent Unit 是 LSTM 浩繁版本中典范的一个。因为它具有记忆性的功用,LSTM常常被器具有时间序列特征的数据和场景中。

根源:Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.
简介

好坏期记忆(Long Short-Term Memory) 是具有恒久记忆才能的一种时间递归神经收集(Recurrent Neural Network)。 其收集构造含有一个或众个具有可遗忘和记忆功用的单位构成。它1997年被提出用于办理古板RNN(Recurrent Neural Network) 的随时间反向传达中权重消逝的题目(vanishing gradient problem over backpropagation-through-time),主要构成部分包罗Forget Gate, Input Gate, 和 Output Gate, 区分认真决议目今输入是否被采用,是否被恒久记忆以及决议记忆中的输入是否目今被输出。Gated Recurrent Unit 是 LSTM 浩繁版本中典范的一个。因为它具有记忆性的功用,LSTM常常被器具有时间序列特征的数据和场景中。

LSTM收集由重复构造的LSTM单位构成,与RNN差别之处于,重复的单位有四层特别的构造(RNN只要一层)。

一般LSTM单位:

一般LSTM单位具有Cell State (解释为C_j), Input Gates (解释为i_t), Output Gates (解释为o_t), Forget Gates (解释为f_t), 而且承受上个时间序列的轮回input h(t-1) 于目今input x_t, 输出 h_t而且看成下一个轮回的轮回input. (图中黄色部分代外一层神经收集)

方法1.决议遗忘的记忆实质:

方法2. 决议新添加的记忆实质

方法3.运用权重相加的方法更新目今记忆实质

方法4.输出目今state

经典LSTM单位变式:

  • Peepholeconnections:夸张了每一个gate单位跟新时到场cell state的到场,此中Forget Gate和Input Gate到场上一个state的影响,Output Gate则到场目今cell state的影响。

  • GRU (Gated Recurrent Unit): 将Forget Gates 与 Input Gates 整合因为跟新记忆于遗遗忘忆有亲密的联系。GRU是目前十分风行的一种LSTM变式。

根源1: Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735. https://www.researchgate.net/profile/Sepp_Hochreiter/publication/13853244_Long_Short-term_Memory/links/5700e75608aea6b7746a0624/Long-Short-term-Memory.pdf

根源2:Zachary Chase Lipton (2015). A Critical Review of Recurrent Neural Networks for Sequence Learning. CoRR, abs/1506.00019, . https://arxiv.org/pdf/1506.00019.pdf

根源3:Long Short-Term Memory Wikipedia https://en.wikipedia.org/wiki/Long_short-term_memory

根源4:Understanding LSTM Networks by colah's blog

开展历史

好坏期记忆(LSTM)最早由Sepp Hochreiter 和Jürgen Schmidhuber1997年提出,随后2000年被改良Felix Gers团队改良。其运用语音识别、自然言语、文本压缩以及手写文字识别上取得了庞大的成功。

直到2016年, 阵势部的科技公司比如谷歌,亚马逊,苹果曾经开端大宗运用好坏期记忆举措AI产物的主要因素。比如LSTM 被用于谷歌的语音识别系列产物,亚马逊的Alexa 系列产物。2017年, 微软运用了基于好坏期记忆的方法中抵达了识别 Switchboard corpus (一个涵盖165000 文字,针对与语音识别相关研讨的众人对话语音库)95.1% 的准确率

主要事情

年份

事情

相关论文/Reference

1994

Yoshua Bengio等人提出关于运用梯度下降对具有恒久依赖联系的进修中的艰难

Y. Bengio, P. Simard and P. Frasconi, "Learning long-term dependencies with gradient descent is difficult," in IEEE Transactionson Neural Networks, vol. 5, no. 2, pp. 157-166, Mar 1994. doi: 10.1109/72.279181

1997

LSTM单位的提出

Hochreiter, S, and J Schmidhuber. “Long Short-Term Memory.” Neural Computation 9, no. 8 (November 1997): 1735–80. doi:10.1162/neco.1997.9.8.1735

1999

“Forget Gate”被到场到好坏期记忆单位中以使增强适宜的记忆重置功用

Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Learning to Forget: Continual Prediction with LSTM". Neural Computation. 12 (10): 2451–2471. doi:10.1162/089976600300015015

2001 - 2002

Felix.A. Gers等提出Peephole LSTM的构造

Gers, F. A.; Schmidhuber, J. (2001)."LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages". IEEE Transactions on Neural Networks. 12 (6): 1333–1340. doi:10.1109/72.963769; Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Learning precise timing with LSTM recurrent networks". Journal of Machine Learning Research. 3: 115–143.

2014

GRU变式的提出

K. Cho, B. Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representation using RNN encoder-decoder for statistical machine translation. In Arxiv preprint arXiv:1406.1078,2014

2015

Xingjian Shi等提出Convolutional LSTM的构造

Shi, X., Chen, Z., Wang, H., Yeung, D., Wong, W., and Woo, W. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. CoRR, abs/1506.04214.

2015

Kalchbrenner提出Grid LSTM的架构

Kalchbrenner, N., Danihelka, I., and Graves, A. (2015). Grid long short-term memory. arXiv preprint arXiv:1507.01526.

开展剖析

瓶颈

LSTM等一类的轮回神经收集具有时序实质,模子教练时很难运用相似于GPU运用的并行加速,于是办理的算法的缺乏和相关的硬件支撑是目前限制LSTM等一类RNN(Recurrent Neural Network)的进一步推行。

未来开展偏向

  • 更加众元的收集计划,比如添加单位内部的连接,增强单位之间的联络以及对收集层面的3D叠加。
  • 当心力机制的引入增强对适宜新闻的萃取于转达。
  • LSTM关于未来对话系统的运用:基于其上下文本的记忆功用可以相似地将通通对话历史实质举措上下文。
  • 视频评论与剖析:将视频的每一帧举措输入,输出相似于对视频评论性的文字。

Contributor: Zirui Tao

相关人物
纳尔·卡尔克布伦纳
纳尔·卡尔克布伦纳
谷歌大脑阿姆斯特丹研讨实行室研讨科学家和联合创始人,曾DeepMind承当深度进修方面的研讨科学家,到场过AlphaGo的研讨。研讨范畴:神经板滞翻译、卷积句子和序列模子、RNN架构,以及图像、视频、音频的生成模子。
于尔根·施密德胡伯
于尔根·施密德胡伯
施行健
施行健
香港科技大学盘算机科学与工程系博士,研讨兴味主要为板滞进修与深度进修、盘算机视觉等。
(曹景贤)
(曹景贤)
纽约大学CILVR组,盘算机科学和数据科学组帮理传授。Facebook AI研讨机构(FAIR)研讨科学家。
简介
相关人物