data:image/s3,"s3://crabby-images/600c3/600c3359aff18e2aed010f8c0985182d12254324" alt="TensorFlow神经网络到深度学习"
3.3 激活函数
激活函数的主要作用就是用来加入非线性因素的,以解决线性模型表达能力不足的缺陷,在整个神经网络里起到至关重要的作用。
因为神经网络的数学基础是处处可微的,所以选取的激活函数要能保证数据输入与输出也是可微的。
在神经网络里常用的激活函数有sigmoid、tanh和relu等。
3.3.1 sigmoid激活函数
sigmoid激活函数也被称为S型函数,它可以将整个实数区间映射到(0,1)区间,因此经常被用来计算概率,它也是在传统神经网络中被经常使用的一种激活函数。
sigmoid激活函数由下列公式定义:
data:image/s3,"s3://crabby-images/50e9a/50e9aaece51a5c7fb97f278aa2be3b11bfe4194f" alt=""
sigmoid激活函数曲线如图3-6所示,其中,x可以是正无穷到负无穷,但是对应的y却在0~1的区间内,所以,经过sigmoid激活函数输出的函数都会落在0~1的区间内,即sigmoid激活函数能够把输入的值“压缩”到0~1。
data:image/s3,"s3://crabby-images/23a98/23a98f9e6d3159869442f7b012b6148736db7521" alt=""
图3-6 sigmoid激活函数曲线
例如:
data:image/s3,"s3://crabby-images/f1fd7/f1fd7276c24c6d9867ebee98b49f074de783d5c9" alt=""
运行程序,输出如下:
data:image/s3,"s3://crabby-images/363f6/363f6eeace9d1e2d58bf480fa443c06b43c6b505" alt=""
可总结出sigmoid激活函数的优缺点如下所述。
sigmoid激活函数的优点:输出的映射区间(0,1)内单调连续,非常适合用在输出层,并且比较容易求导。
sigmoid激活函数的缺点:它具有软饱和性,即当输入x趋向于无穷的时候,它的导数会趋于0,导致很容易产生梯度消失。
此外,在TensorFlow中,提供了log_sigmoid函数用于对sigmoid激活函数求log,它将整个实数区间映射到了(负无穷,0)。
【例3-1】利用log_sigmoid函数对给定的sigmoid激活函数求log。
data:image/s3,"s3://crabby-images/83693/836932cc804bf3ef5e028ce2419e666e7ffa851b" alt=""
data:image/s3,"s3://crabby-images/206d1/206d15ee448fbd65128d6b04de36f967acd82d57" alt=""
运行程序,输出如下,log_sigmoid函数图像如图3-7所示。
data:image/s3,"s3://crabby-images/48ae1/48ae1b08d31d60f31664be2b3b19382e81fc890b" alt=""
data:image/s3,"s3://crabby-images/75ccd/75ccd466439b1ee1aa9b27b8fd125ddadb8903cc" alt=""
图3-7 log_sigmoid函数图像
3.3.2 tanh激活函数
tanh激活函数是双曲正切函数,它将整个实数区间映射到了(-1,1),tanh激活函数也具有软饱和性。它的输出以0为中心,tanh激活函数的收敛速度比sigmoid激活函数的收敛速度要快,由于存在软饱和性,所以tanh激活函数也存在梯度消失的问题。
tanh激活函数由下列公式定义:
data:image/s3,"s3://crabby-images/26e3f/26e3faac7d76f945bd336bda74537af8d20968cf" alt=""
【例3-2】绘制tanh激活函数曲线。
data:image/s3,"s3://crabby-images/6e489/6e489a3339b327c2e0f69f92325e69beba79d55d" alt=""
运行程序,输出如下,tanh激活函数曲线如图3-8所示。
data:image/s3,"s3://crabby-images/536ac/536ac65b7c8eb193f7a4a4d2f593ae61ca7e8331" alt=""
data:image/s3,"s3://crabby-images/114bf/114bf33f57809e06ec87ecbf3e31bc3eb6d6bf17" alt=""
data:image/s3,"s3://crabby-images/da1fb/da1fb390b9b39ad7c20b2f56e5bd58b3034c2899" alt=""
图3-8 tanh激活函数曲线
由图3-8可以看出,其x取值也是从正无穷到负无穷,对应的y值变为-1~1,相对于sigmoid激活函数有更广的值域。但也显而易见,tanh激活函数与sigmoid激活函数有一样的缺陷,也是饱和问题,所以在使用tanh激活函数时,要注意输入值的绝对值不能过大,否则模型无法训练。
3.3.3 relu激活函数
除了sigmoid激活函数和tanh激活函数,还有一个更为常用的relu激活函数(也称为Rectifier)。其由以下公式定义:
data:image/s3,"s3://crabby-images/3f1b8/3f1b858b6c5a021a2accbd7503ea23e6f6372e5f" alt=""
该式非常简单,大于0的留下,否则一律为0。relu激活函数应用的广泛性与它的优势是分不开的,这种对正向信号的重视,忽略了负向信号的特性,与我们人类神经元细胞对信号的反映极其相似。所以在神经网络中取得了很好的拟合效果。
另外,由于relu激活函数运算简单,大大提升了机器的运动效率,也是relu激活函数一个很大的优点。
【例3-3】绘制relu激活函数曲线。
data:image/s3,"s3://crabby-images/3c87e/3c87ef5753f3120f000dd7652effc082e425dbbb" alt=""
运行程序,输出如下,relu激活函数曲线图如图3-9所示。
data:image/s3,"s3://crabby-images/e1578/e1578ee75deed1919f7f7ecffd7587c5f840cf9c" alt=""
data:image/s3,"s3://crabby-images/a6588/a6588139f0111c7ed0a5a494e53ff8ba6ed685a3" alt=""
图3-9 relu激活函数曲线图
与relu激活函数类似的还有softplus激活函数,它们二者的区别在于:softplus激活函数会更加平滑,但计算量很大,而且对于小于0的值保留的相对更多一些。其定义公式为
data:image/s3,"s3://crabby-images/96ce8/96ce87353525830482c4466b49e789ebc935c49f" alt=""
【例3-4】绘制softplus激活函数曲线。
data:image/s3,"s3://crabby-images/3c156/3c156e9d841907a7cb5a70918608d3c0246cd57f" alt=""
运行程序,输出如下,softplus激活函数曲线图如图3-10所示。
data:image/s3,"s3://crabby-images/563f0/563f09a7686d9ae7d3a19bf644983e49ddfafb12" alt=""
data:image/s3,"s3://crabby-images/6a899/6a899b28911d7d66596c3057ec472a8d4c956349" alt=""
图3-10 softplus激活函数曲线图
虽然,relu激活函数在信号响应上有很多优势,但这仅仅在正向传播方面。由于其对负值的全部舍去,因此很容易使模型输出为全零,从而无法再进行训练。例如,随机初始化的w值中有一个值是负值,其对应的正值输入值特征也就全部被屏蔽了,同理,对应负值输入值反而被激活了。这显然不是我们想要的结果。于是在基于relu激活函数的基础上又演化出了一些变种函数。
·relu6激活函数:定义min(max(features,0),6),也就是说它的取值区间被限定为[0,6]。
【例3-5】绘制relu6激活函数曲线。
data:image/s3,"s3://crabby-images/76635/76635d9e4034ecc5bbac9f5f04e9b0208a321b57" alt=""
运行程序,输出如下,relu6激活函数曲线图如图3-11所示。
data:image/s3,"s3://crabby-images/c115d/c115d612640b8ab111ae65e6359515a418e44412" alt=""
data:image/s3,"s3://crabby-images/2c96c/2c96ccc95de7ca131f4aba216f4a39da78552b08" alt=""
图3-11 relu6激活函数曲线图
·crelu激活函数:定义为[relu(x),relu(-x)]相对于relu(x),crelu激活函数的输出会增加一倍。
【例3-6】利用crelu激活函数对输入数据进行计算。
data:image/s3,"s3://crabby-images/953ab/953ab052ac752effcd4a713ef237023a6695b8c9" alt=""
运行程序,输出如下:
data:image/s3,"s3://crabby-images/2a476/2a47664778b8f8da7c8342e7784340253c1ae33b" alt=""
·leak_relu激活函数:leak_relu激活函数会给x<0一个斜率,而不是将所有x<0都输出0,默认斜率是0.2,x>0的部分仍然输出是x,即斜率为1,保持不变。
【例3-7】绘制leak_relu激活函数曲线。
data:image/s3,"s3://crabby-images/5b3d5/5b3d5de5b7e6b0090a850283dc815438f0d297a9" alt=""
data:image/s3,"s3://crabby-images/f8d82/f8d82e1380ada20ce990726b158a85c450e24e8d" alt=""
运行程序,输出如下,leak_relu激活函数曲线图如图3-12所示。
data:image/s3,"s3://crabby-images/980ed/980ede7fd50011da919f6148e94b392de89527ea" alt=""
data:image/s3,"s3://crabby-images/903e5/903e5268bab8fef3b71922d0e530bc9d1a300e8c" alt=""
图3-12 leak_relu激活函数曲线图
3.3.4 dropout激活函数
dropout激活函数会以概率keep_prob来决定神经元是否被抑制。如果被抑制,该神经元则输出为0;如果不被抑制,该神经元则输出为输入的1/keep_prob倍,每个神经元是否会被抑制是相互独立的。神经元是否被抑制还可以通过noise_shape来调节,当noise_shape[i]=shape(x)[i]时,x中的元素是相互独立的。如果shape(x)=[k,l,m,n](k表示数据的个数,l表示数据的行数,m表示数据的列数,n表示通道数),当noise_shape=[k,l,l,n]时,表示数据的个数与通道是相互独立的,但是与数据的行和列是有关联的,即要么都为0,要么都为输入的1/keep_prob倍。
【例3-8】利用dropout激活函数对输入随机数进行计算。
data:image/s3,"s3://crabby-images/745ce/745cef64ec7ebb1ee7c99574938bc7436b121df4" alt=""
data:image/s3,"s3://crabby-images/32594/32594425d2ddf34d5b650aeb4855b2b2d18341fb" alt=""
运行程序,输出如下:
data:image/s3,"s3://crabby-images/80587/80587923a05ae39dc8ac4a17a839a650dd49da8d" alt=""