当前位置:首页 > 作文大全 >

循环神经网络的发展综述

发布时间: 2022-04-14 08:44:30 浏览:


打开文本图片集

摘要:循环神经网络(RNN)是一种十分重要的神经网络模型。由于其具有记忆特性,可以处理前后输入有关系的序列数据,从而在自然语言处理领域中有着广泛的应用。本文首先介绍了RNN的发展历史,其次描述了RNN的结构及其变形,然后介绍了RNN的应用范围及相关工作,最后总结了RNN的特性,并探讨了RNN的未来发展目标。

关键词:人工智能;循环神经网络;自然语言处理

中图分类号:TP391  文献标识码:A

文章编号:1009-3044(2019)21-0182-03

开放科学(资源服务)标识码(OSID):

Abstract: The Circulating Neural Network (RNN) is a very important neural network model. Because of its memory characteristics, it can process sequence data related to input and output, which has a wide range of applications in the field of natural language processing. This paper first introduces the development history of RNN, then describes the structure and deformation of RNN, then introduces the application scope and related work of RNN, and finally summarizes the characteristics of RNN and discusses the future development goals of RNN.

Key words: Artificial Intelligence; Recurrent Neural Network; Natural Language Processing

1引言

神经网络是一种具有很强学习能力的模型,尤其是在处理模式识别、智能控制等问题上效果尤为显著。近年来,随着计算机科学技术与硬件设备的蓬勃发展,神经网络逐渐成为人工智能领域中的研究热点。但全连接神经网络(Full Connected Neural Networks, FCNN)具有局限性,其同一層的节点之间是无连接的,当需要用到序列之前时刻的信息时,FCNN无法办到。由于FCNN一个序列的不同位置之间无法共享特征,所以只能单独的处理一个个的输入,即前一个输入和后一个输入之间没有关系,无法处理在时间或空间上有前后关联的输入问题。

然而许多学习任务都需要处理序列的信息,如时间序列预测、任务型对话等都要求模型必须从序列的输入中学习。针对序列输入的需求,循环神经网络(Recurrent Neural Network,RNN)[1]应运而生。

本文将重点介绍RNN的发展历史、模型改进及其应用领域,总结了RNN模型的特点及相关工作,旨在为刚进入该领域的初学者和对RNN进行深入研究的学者提供参考资料。

本文的组织结构如下:第2节介绍RNN的结构,重点描述了两种对RNN进行改进的模型及其相关工作;第3节介绍了RNN在自然语言处理(Natural Language Processing,NLP)领域中的应用;最后,总结了本文的内容并给出了未来工作的展望。

2循环神经网络

2.1 介绍

RNN应用于输入数据具有依赖性且是序列模式时的场景,即前一个输入和后一个输入是有关系的。与FCNN结构不同的是,RNN的隐藏层是循环的。这表明隐藏层的值不仅取决于当前的输入值,还取决于前一时刻隐藏层的值。具体的表现形式是,RNN“记住”前面的信息并将其应用于计算当前输出,这使得隐藏层之间的节点是有连接的。RNN的结构图如图1所示。

从RNN的结构可以得知,RNN的下一时刻的输出值是由前面多个时刻的输入值来共同影响的,而在有些情况下输出值可能还会受后面时刻的输入值的影响,结果会更加准确。例如:“小明的笔记本电脑坏了,他打算____一台新电脑。”如果只看横线前面的词并不能准确地判断出横线处是“买”,因为在这种语境下也可以是“修”或其他结果。由于单向RNN无法对这种情况进行建模,故提出双向循环神经网络(bidirectional RNN)[2]。BRNN的结构如图2,可以看到BRNN的隐藏层需要记录两个值。[A]参与正向计算,[A"]参与反向计算。最终的输出值[y2]取决于[A2]和[A"2]。

然而,在训练RNN的过程中容易出现梯度爆炸和梯度消失的问题,导致在训练时梯度的传递性不高,即梯度不能在较长序列中传递,从而使RNN无法检测到长序列的影响。梯度爆炸问题是指在RNN中,每一步的梯度更新可能会积累误差,最终梯度变得非常大,以至于RNN的权值进行大幅更新,程序将会收到NaN错误。一般而言,梯度爆炸问题更容易处理,可以通过设置一个阈值来截取超过该阈值的梯度。梯度消失的问题更难检测,可以通过使用其他结构的RNNs来应对,例如长短期记忆网络(long short-term memory,LTSM)[3]和门控循环单元(Gated Recurrent Unit,GRU)[4]。本文将在下两节中介绍这两种网络。

2.2 长短期记忆网络

由于存在梯度消失问题,RNN只能有短期记忆,而存在“长期依赖”的问题。LSTM在RNN的基础上进行了改进,与RNN的基本结构中的循环层不同的是,LSTM使用了三个“门”结构来控制不同时刻的状态和输出,即“输入门”“输出门”和“遗忘门”。LSTM通过“门”结构将短期记忆与长期记忆结合起来,可以缓解梯度消失的问题。

“门”结构是一个使用了按位相乘的操作的FCNN,其激活函数为Sigmoid函数。Sigmoid函数将输出一个0~1之间的数值用来表示当前时刻能通过“门”的信息数。0表无法通过任何信息,1表示可以通过全部信息。

“遗忘门”控制了前一时刻能传递到当前时刻的单元状态的信息数,“输入门”控制了当前时刻的输入能保存到单元状态的信息数,“输出门”决定了单元状态能输出到当前状态输出值的信息数。“门”结构如图3所示。

2018年,Alex Graves[5]对LSTM进行了改进和推广。作者介绍了一种使用LSTM的顺序自动编码器框架,用来检测计算机网络入侵。作者通过降维和提取自动编码器框架的特征属性来有效地执行重建过程,并且基于交叉验证分配阈值,以便对输入的网络数据序列是否异常进行分类。此外,该框架可以在固定和可变长度数据序列上工作,并且可以有效地用于不可预见和不可预测的网络攻击。

Koutník等[6]提出了一种对标准RNN架构的简单而有效的修改Clockwork RNN(CW-RNN),可以有效解决梯度消失问题。其中隐藏层被独立出来,形成一个单独的模块,每个模块以其自己的时间粒度来处理输入,仅在其规定的情况下进行计算时钟频率。CW-RNN减少了RNN的参数数量,在测试的任务中显着地提高了性能。作者提出,在音频信号生成和TIMIT口语单词分类的两个实验中,CW-RNN的性能优于RNN和LSTM。

2.3 门控循环单元

GRU在LSTM的基础上进行了改进,它在简化LSTM结构的同时保持着和LSTM相同的效果[7]。相比于LSTM结构的三个“门”,GRU将其简化至两个“门”:“更新门”和“重置门”。“更新门”的作用是控制前一时刻的单元状态有多少信息数能被带入到当前状态中,“重置门”的作用是控制前一状态能被写入到当前状态的信息数。GRU的示意图如图4所示。

Zhao等人[8]提出了基于本地特征的GRU网络(LFGRU)。这是一种将手工特征设计与自动特征学习相结合的混合方法,用于实现机器健康监控。具体步骤为:首先,提取输入时间序列窗口的特征;然后,设计增强的双向GRU网络并将其应用于生成的局部特征序列以学习表示。最后训练有监督的学习层以预测机器状况。

3应用

RNN被广泛应用在NLP领域中,例如文本分类、语音识别、自动文摘等。

Mikolov等[9]提出了一种新的基于RNN的语言模型(RNN LM),其可在語音识别中进行应用。相比于现有技术的退避语言模型,作者通过使用几种RNN LM的混合模型可以降低约50%的困惑度。

Graves[10]等研究了深度RNN。作者发现当通过适当的正则化进行端到端训练时,深度LSTM在TIMIT音素识别基准上的测试集误差达到了17.7%。证明了灵活使用能为RNN提供支持的远程环境在深度网络中是非常有效的。

Karpathy等[11]提出了一种多模式RNN模型。该模型通过利用图像数据集及其语句描述来学习语言和视觉数据之间的模式间对应关系,并且可以生成图像及其区域的自然语言描述。

Pei等[12]提出了一种用于中文分词的新的神经网络模型,称为Max-Margin Tensor神经网络(MMTNN)。其通过利用标签嵌入和基于张量的转换,来模拟标签和上下文字符之间的复杂交互。此外,作者还提出了一种新的张量因子分解方法来加速模型效率并避免过拟合。

Kordmahalleh等[13]提出了一种稀疏的RNN,由于其具有灵活的拓扑结构,可用于大西洋飓风的轨迹预测。该网络适用于具有未知动态的复杂系统的飓风模型。

4 总结与展望

本文简述了RNN的发展历史,并且介绍了一般结构的RNN的优化模型:LSTM和GTU。本文还介绍了RNN模型在NLP领域中的应用及相关工作。本文指出,RNN在解决序列输入问题时效果显著,由于其具有记忆特性,在NLP等众多领域中有着广泛的应用。在RNN的未来发展中,针对解决不同的问题,需要通过改变RNN的参数、循环层的结构等方法来适应各种环境的变化,从而使其有更强大的功能。

参考文献:

[1] Lipton Z C. A Critical Review of Recurrent Neural Networks for Sequence Learning[OL]. (2015) [2019]. https: //arxiv.org/abs/1506.00019v1.

[2] M. Schuster and K. K. Paliwal, "Bidirectional recurrent neural networks," in IEEE Transactions on Signal Processing, vol. 45, no. 11, pp. 2673-2681, Nov. 1997. doi: 10.1109/78.650093

[3] Sepp Hochreiter and Jürgen Schmidhuber(1997).“Long short-term memory”(PDF).Neural Computation9(8): 1735–1780.doi:10.1162/neco.1997.9.8.1735.PMID 9377276.

[4] Cho K, van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[OL]. (2014) [2019]. https: //arxiv.org/abs/1406.1078.

[5] A. H M, S. C. Computer network intrusion detection using sequential LSTM Neural Networks autoencoders[C]// The Proceedings of 26th Signal Processing and Communications Applications Conference (SIU).IEEE 2018,1-4.

[6] Koutník, J., Greff, K., Gomez, F., & Schmidhuber, J. (2014). A clockwork RNN. In Proceedings of the 31th international conference on machine learning, vol. 32 (pp. 1845–1853). arXiv:1402.3511  [cs.NE].

[7] K. Cho, B. van Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. In Proceedings of EMNLP’14, 2014.

[8] R. Zhao, D. Wang, R. Yan, K. Mao, F. Shen and J. Wang, "Machine Health Monitoring Using Local Feature-Based Gated Recurrent Unit Networks," in IEEE Transactions on Industrial Electronics, vol. 65, no. 2, pp. 1539-1548, Feb. 2018.doi: 10.1109/TIE.2017.2733438

[9] Mikolov, Tomáš / Karafiát, Martin / Burget, Lukáš / Černocký, Jan / Khudanpur, Sanjeev (2010): "Recurrent neural network based language model", In INTERSPEECH-2010, 1045-1048.

[10] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013: 6645-6649.

[11] Karpathy A, Fei-Fei L. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3128-3137.

[12] Pei W, Ge T, Chang B. Max-margin tensor neural network for chinese word segmentation[C]//Meeting of the Association for Computational Linguistics, 2014:293-303.

[13] Kordmahalleh M M, Sefidmazgi G M, Homaifar A.A sparse recurrent neural network for trajectory prediction of atlantic hurricanes[C]//Proceedings of the Genetic and Evolutionary Computation Conference 2016.ACM, 2016:957-964.

【通聯编辑:梁书】

相关热词搜索: 神经网络 综述 循环 发展

版权所有:无忧范文网 2010-2024 未经授权禁止复制或建立镜像[无忧范文网]所有资源完全免费共享

Powered by 无忧范文网 © All Rights Reserved.。冀ICP备19022856号