在中我们对DNN的前向反向传播算法的使用做了总结。里面使用的损失函数是均方差而激活函数是Sigmoid。实际上DNN可以使用的损失函数和激活函数不少这些损失函数和激活函数如何选择呢?下面我们就对DNN损失函数和激活函数的选择做一个总结
在讲反向传播算法时,我们用均方差损失函数和Sigmoid激活函数做了实例首先我们就来看看均方差+Sigmoid的组合有什么问题。
首先我们回顾下Sigmoid激活函数的表达式为:
σ(z)σ(z)的函数图像如丅:
从图上可以看出对于Sigmoid,当zz的取值越来越大后函数曲线变得越来越平缓,意味着此时的导数σ′(z)σ′(z)也越来越小同样的,当zz的取值越来越小时也有这个问题。仅仅在zz取值为0附近时导数σ′(z)σ′(z)的取值较大。
在上篇讲的均方差+Sigmoid的反向传播算法中每一层向前递推都要乘以