你的位置:首页 > 数据库

[数据库]关于交叉验证和过拟合


常见的交叉验证方法有三种,一般运用K折交叉验证的较多,即把初始采样分成K个子集,一个子集用来保留作为验证模型的数据,其他K-1个用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果,或使用其他结合方式,得到一个单一估测,这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。

交叉验证的作用话说是为了验证模型是否过拟合,随着训练数据和验证数据的增加以及训练和验证的进度,到训练和验证完成,如果训练误差和验证误差相差较大,则很可能发生可过拟合,可以通过增加训练数据、减少特征、以及正则化来解决过拟合的问题。