你的位置:首页 > 软件开发 > 数据库 > 斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

发布时间:2015-07-16 16:00:09
一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在《数学之美》中提到,Google是利用逻辑回归预测搜索广告的点击率。因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么。幸好,在CS ...

斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

一直听闻Logistic Regression逻辑回归的大名,比如吴军博士在《数学之美》中提到,Google是利用逻辑回归预测搜索广告的点击率。因为自己一直对个性化广告感兴趣,于是疯狂google过逻辑回归的资料,但没有一个网页资料能很好地讲清到底逻辑回归是什么。幸好,在CS229第三节课介绍了逻辑回归,第四节课介绍了广义线性模型,综合起来总算让我对逻辑回归有了一定的理解。与课程的顺序相反,我认为应该先了解广义线性模型再来看逻辑回归,也许这也是为什么讲逻辑回归的网页资料总让人感觉云里雾里的原因吧。

Generalized Linear Model (GLM) 广义线性模型

这一段主要讲的是广义线性模型的定义和假设,为了看明白逻辑回归,大家要耐着性子看完。

1.The exponential family 指数分布族

因为广义线性模型是围绕指数分布族的,因此需要先介绍,用Andrew大神的话说就是,“虽然不是全部,但是我们见过的大多数分布都属于指数分布族,比如:Bernoulli伯努利分布、Gaussian高斯分布、multinomial多项分布、Poisson泊松分布、gamma分布、指数分布、Dirichlet分布……”服从指数分布族的条件是概率分布可以写成如下形式:η 被称作natural parameter,它是指数分布族唯一的参数1.2 学习的目标是预测T(y)的期望值,而伯努利分布中T(y)=y,另外我们知道伯努利分布的期望就是参数Φ,即E(y)=Φ。因为伯努利分布的参数Φ既是分布的期望,又代表事件发生的概率,因此逻辑回归模型的意义就是:在给定的输入变量组合的条件下,输出变量(二元变量)中一个事件发生的概率。比如:预测在用户是第一次来访(输入变量1),广告链接用的是热门文案(输入变量2)的条件下,广告链接被点击(输出变量)的概率为多少。 看到这里,相信大家应该能够明白:为什么逻辑函数要长成这样,为什么逻辑回归能起作用了吧。

2.策略

逻辑回归使用的策略是最大化对数似然函数,它的似然函数与对数似然函数分别为:斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归这个导数和线性回归中的导数如出一辙,但是要注意两者的模型hθ(x)是不一样的,所以最终采用随机梯度上升的迭代规则如下:3.2 Newton’s method 牛顿方法当参数θ只有一个时,牛顿方法的迭代规则:当参数θ不止一个时,牛顿方法的迭代规则:相较于批量梯度下降,牛顿方法通常来说有更快的收敛速度,只需要少得多的迭代次数就能得到很接近最小值的结果。但是当模型的参数很多时(参数个数为n)Hessian矩阵的计算成本将会很大,导致收敛速度变慢,但是当参数个数不多时,牛顿方法通常是比梯度下降快得多的。

总结

    1. 原来这么多主流的概率分布都属于指数分布族
    2. 记住构成广义线性模型的三个假设,其实也是构建模型的桥梁
    3. 理解逻辑回归模型是基于伯努利分布的概率模型,它的意义是:在给定的输入变量组合的条件下,输出变量(二元变量)其中一元发生的概率。也因此它适合用来预测广告点击率。
    4. 有梯度下降算法也有梯度上升算法,两者的区别只在+/-号上。此外,还可以使用牛顿方法,通过获得导数为0的点以确定模型的极大/极小值。

原标题:斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归

关键词:

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。

可能感兴趣文章

我的浏览记录