网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

Machine Learning Algorithms Study Notes(3)--Learning Theory

浏览数：24 / 时间：2015年06月20日

Machine Learning Algorithms Study Notes

高雪松

@雪松Cedro

Microsoft MVP

本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 229 的学习笔记。

Machine Learning Algorithms Study Notes 系列文章介绍

3 Learning Theory

3.1 Regularization and model selection

模型选择问题：对于一个学习问题，可以有多种模型选择。比如要拟合一组样本点，可以使用线性回归，也可以用多项式回归。那么使用哪种模型好呢（能够在偏差和方差之间达到平衡最优）？

还有一类参数选择问题：如果我们想使用带权值的回归模型，那么怎么选择权重w公式里的参数？

形式化定义：假设可选的模型集合是，比如我们想分类，那么SVM、logistic回归、神经网络等模型都包含在M中。

3.1.1 Cross validation

我们的第一个任务就是要从M中选择最好的模型。

假设训练集使用S来表示，如果我们想使用经验风险最小化来度量模型的好坏，那么我们可以这样来选择模型：

使用S来训练每一个，训练出参数后，也就可以得到假设函数。（比如，线性模型中得到后，也就得到了假设函数）
选择错误率最小的假设函数。

遗憾的是这个算法不可行，比如我们需要拟合一些样本点，使用高阶的多项式回归肯定比线性回归错误率要小，偏差小，但是方差却很大，会过度拟合。因此，我们改进算法如下：

从全部的训练数据S中随机选择70%的样例作为训练集，剩余的30%作为测试集。
在上训练每一个，得到假设函数。
在上测试每一个，得到相应的经验错误。
选择具有最小经验错误的作为最佳模型。

这种方法称为hold-out cross validation或者称为简单交叉验证。

由于测试集是和训练集中是两个世界的，因此我们可以认为这里的经验错误接近于泛化错误（generalization error）。这里测试集的比例一般占全部数据的1/4-1/3。30%是典型值。

还可以对模型作改进，当选出最佳的模型后，再在全部数据S上做一次训练，显然训练数据越多，模型参数越准确。

简单交叉验证方法的弱点在于得到的最佳模型是在70%的训练数据上选出来的，不代表在全部训练数据上是最佳的。还有当训练数据本来就很少时，再分出测试集后，训练数据就太少了。

我们对简单交叉验证方法再做一次改进，如下：

将全部训练集S分成k个不相交的子集，假设S中的训练样例个数为m，那么每一个子集有m/k个训练样例，相应的子集称作{}。
每次从模型集合M中拿出来一个，然后在训练子集中选择出k-1个{}（也就是每次只留下一个），使用这k-1个子集训练后，得到假设函数。最后使用剩下的一份作测试，得到经验错误。
由于我们每次留下一个（j从1到k），因此会得到k个经验错误，那么对于一个，它的经验错误是这k个经验错误的平均。
选出平均经验错误率最小的，然后使用全部的S再做一次训练，得到最后的。

这个方法称为k-fold cross validation（k-折叠交叉验证）。说白了，这个方法就是将简单交叉验证的测试集改为1/k，每个模型训练k次，测试k次，错误率为k次的平均。一般讲k取值为10。这样数据稀疏时基本上也能进行。显然，缺点就是训练和测试次数过多。

极端情况下，k可以取值为m，意味着每次留一个样例做测试，这个称为leave-one-out cross validation。

如果我们发明了一种新的学习模型或者算法，那么可以使用交叉验证来对模型进行评价。比如在NLP中，我们将训练集中分出一部分训练，一部分做测试。

参考文献

[1] Machine Learning Open Class by Andrew Ng in Stanford http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning

[2] Yu Zheng, Licia Capra, Ouri Wolfson, Hai Yang. Urban Computing: concepts, methodologies, and applications. ACM Transaction on Intelligent Systems and Technology. 5(3), 2014

[3] Jerry Lead http://www.cnblogs.com/jerrylead/

[4]《大数据-互联网大规模数据挖掘与分布式处理》 Anand Rajaraman，Jeffrey David Ullman著，王斌译

[5] UFLDL Tutorial http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial

[6] Spark MLlib之朴素贝叶斯分类算法 http://selfup.cn/683.html

[7] MLlib - Dimensionality Reduction http://spark.apache.org/docs/latest/mllib-dimensionality-reduction.html

[8] 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

[9] 浅谈 mllib 中线性回归的算法实现 http://www.cnblogs.com/hseagle/p/3664933.html

[10] 最大似然估计 http://zh.wikipedia.org/zh-cn/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1

[11] Deep Learning Tutorial http://deeplearning.net/tutorial/

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

Machine Learning Algorithms Study Notes(3)--Learning Theory

标签：算法 class style 使用 html 问题 com log 数据算法 class style 使用 html 问题 com log 数据

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

中山路人徒手接住空中坠落小孩

中山路人徒手接住空中坠落小孩

近代康生的书法

近代康生的书法

米兰时装周火辣上演美模抱萌娃走秀场面温馨

米兰时装周火辣上演美模抱萌娃走秀场面温馨

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

深圳小区现4层楼深大坑保安被吞噬亡

深圳小区现4层楼深大坑保安被吞噬亡

杭州一企业女员工集体穿肚兜上班

杭州一企业女员工集体穿肚兜上班

模特精选

模特精选

狠心母亲将两孩子扔进车流碾死

狠心母亲将两孩子扔进车流碾死

尼泊尔四个月大婴儿震后22小时获救

尼泊尔四个月大婴儿震后22小时获救

女子占座被指责飞踹老人

女子占座被指责飞踹老人

您可能还喜欢

更多

全球最贵劳斯莱斯SUV或定名“库利南”

全球最贵劳斯莱斯SUV或定名“库利南”

三岁女童来深圳两月后失踪尸现废弃老屋

三岁女童来深圳两月后失踪尸现废弃老屋

消防员抱起火煤气罐冲出火场

消防员抱起火煤气罐冲出火场

厦门旅游海边夜拍

厦门旅游海边夜拍

海南岛试拍

海南岛试拍

实拍厌食症患者的身体干瘪枯瘦

实拍厌食症患者的身体干瘪枯瘦

AI 生成的美女图

AI 生成的美女图

湖北砍小学生现场及凶手曝光

湖北砍小学生现场及凶手曝光

叶梓萱最新比基尼泳装写真玲珑曲线迷倒人

叶梓萱最新比基尼泳装写真玲珑曲线迷倒人

杨幂变黑衣人现身酒店

杨幂变黑衣人现身酒店