你的位置:首页 > 数据库

[数据库]过拟合问题分析


看过吴恩达的对过拟合和欠拟合的分析,这里做一下小小的总结:课程主要从验证误差和训练误差着手分析,高的variance意味着过拟合,高的bias意味着欠拟合。 (1)随着多项式的阶数的增加,交叉验证误差先减小,后增大;训练误差不断减小,当交叉验证误差和和训练误差都很大时候,交叉验证误差大约等于训练误差,此时欠拟合;随着多项式的阶数的不断增大,到交叉验证误差远远大于训练误差,属于过拟合的情况。 (2)正则化下variance和bias的分析 随着lambda的增大,交叉验证误差先减小到最低点在增大,训练误差由小变大,到最后和交叉验证大约相等,根据上面的分析,当交叉验证误差和训练误差大约相等的时候,属于bias欠拟合问题,当lambda很小的时候,交叉验证误差远远大于训练误差,此时是variance过拟合问题。 (3)训练数据量的大小对模型的检验 随着训练数据的增多,交叉验证逐渐降低,训练误差不多增多,当训练样本数据足够大的时候,训练误差大约等于交叉验证误差。当模型处于欠拟合的状态下的时候,交叉验证误差和训练误差已经大约相等了,这个时候,增加训练样本的数量并不能改善欠拟合当模型处于过拟合的状态下的时候,交叉验证误差和训练误差之间还相差一个很大的沟壑,还没有达到相等,增加训练数据量,有助于使之趋向于相等,即增加数据量有助于改善过拟合。 (4)神经网络的variance和bias当运用少量神经元的时候,就意味着有很少的参数,即一个小的神经网络有高的bias,常常是欠拟合状态当运用大量神经元的时候,就意味着模型有很多的参数,则模型更有可能是过拟合的,解决的办法是增大正则化项,有正则化的大的神经网络往往是优于小的神经网络的。当运用含有隐藏层的神经网络的时候,选择隐藏层的数目往往需要通过测试数据进行测试,来比较不同的隐藏层的网络模型误差的大小,来选择最优的模型。