你的位置:首页 > 软件开发 > 数据库 > 斯坦福CS229机器学习课程笔记一:线性回归与梯度下降算法

斯坦福CS229机器学习课程笔记一:线性回归与梯度下降算法

发布时间:2015-07-16 15:00:09
应该是去年的这个时候,我开始接触机器学习的相关知识,当时的入门书籍是《数据挖掘导论》。囫囵吞枣般看完了各个知名的分类器:决策树、朴素贝叶斯、SVM、神经网络、随机森林等等;另外较为认真地复习了统计学,学习了线性回归,也得以通过orange、spss、R做一些分类预测工作。可是对外 ...

斯坦福CS229机器学习课程笔记一:线性回归与梯度下降算法

应该是去年的这个时候,我开始接触机器学习的相关知识,当时的入门书籍是《数据挖掘导论》。囫囵吞枣般看完了各个知名的分类器:决策树、朴素贝叶斯、SVM、神经网络、随机森林等等;另外较为认真地复习了统计学,学习了线性回归,也得以通过orange、spss、R做一些分类预测工作。可是对外说自己是搞机器学习的还是不太自信,毕竟和科班出身的各位大牛相比自己对这些模型、算法的理解只能算是“知其然而不知其所以然”,用起来总感觉哪里不对劲。

因此,去年早早地就把网易公开课上Andrew大神的斯坦福CS229课程以及相应的讲义下载了下来,但每次一想学,看到每集1个多小时的内容就望而生却,感觉没有足够的整块的时间来学习。好在过年回家期间,实在没有其他借口不学了,于是才能有这篇学习笔记……截止今天下午,刚好学完了前四课,听Andrew Ng讲完了GLM广义线性模型的相关内容。真的是感觉相见恨晚。我要向所有看到本文的同学推荐这个课程(虽然是07年的)。

机器学习三要素

机器学习的三要素为:模型、策略、算法。策略:按照什么样的准则学习或选择最优的模型。算法:基于训练数据集,根据学习策略,选择最优模型的计算方法。因为我不是做科研的,所以解析解的推导没有细看。(我猜很多人可能就是在第二集中段看到这么复杂的推导而放弃继续学习的。)在推导解析解之前,NG还介绍了一个很重要的算法:

2.gradient descent algorithm 梯度下降算法

课程中的比喻很形象,将用最快的速度最小化损失函数,比作如何最快地下山,也就是每一步都应该往坡度最陡的方向往下走,而坡度最陡的方向就是损失函数相应的偏导数,因此算法迭代的规则是:其中α是算法的参数learning rate,α越大每一步下降的幅度越大速度也会越快,但过大有可能导致算法不准确。当训练集的样本量大于1时,有两种算法:stochastic gradient descent (incremental gradient descent) 随机梯度下降当训练样本量很大时,batch gradient descent的每一步都要遍历整个训练集,开销极大;而stochastic gradient descent则只选取其中的一个样本,因此后者的速度要快于前者。另外,虽然stochastic gradient descent可能不会收敛,但是实践当中大多数情况下得到的结果都是真实最小值的一个足够好的近似。

3.为什么在选择策略时,我们使用的是误差平方和,而不是绝对值或其他损失函数?

首先我们得复习一下线性回归的模型及假设:ε(i) ∼ N(0, σ2),随机误差ε服从正态分布(高斯分布)整个训练集的似然函数,与对数似然函数分别为:因此,最大化对数似然函数,也就相当于最小化加权函数w的一个选择是|x(i) − x|越小,权重w(i)越接近1;越大,则权重越小

 

海外公司注册、海外银行开户、跨境平台代入驻、VAT、EPR等知识和在线办理:https://www.xlkjsw.com

原标题:斯坦福CS229机器学习课程笔记一:线性回归与梯度下降算法

关键词:

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。

可能感兴趣文章

我的浏览记录