【machine learning细致讲解code逐行注释】之线性回归

浏览数：73 / 时间：2015年06月20日

现在机器学习算法在分类、回归、数据挖掘等问题上运用的十分广泛，对于初学者来说，可能一听到‘算法‘或其他的专属名词都感觉高深莫测，以致很多人望而却步，这让很多人在处理很多问题上失去了一个很有用的工具。机器学习的算法并没有那么高深，这里我就用最通俗的语言来细致解释算法的表达的意义，，并且很多人对程序的实现这一部分也会望而却步，网上固然有很多现成的程序，但是鉴于大部分没有注释，所以有时候需要花费很大的精力去解读程序，有时候甚至不得其解，这里我也会对每个讲解的算法的程序进行讲解，大部分是逐行讲解，务必做到最精细，把程序的来龙去脉表达清楚，这样对于学习机器学习算法的读者势必会事半功倍！

转载时候最好标注 http://www.cnblogs.com/happylion/ 或 http://blog.sina.com.cn/ahappylion

开始了，学习吧，加油！

......................................................................分割线............................................................................

上一个博客已经说了我们要线性回归的主要内容，通俗的讲就是：你有一个样本X=[x1,x2,…,xn],然后你需要做的就是找到一组参数W=[w1,w2…wn],使

样本各个元素的线性叠加和w1*x1+w2*x2+…+wn*xn尽量等于样本的label。所以我们的cost function就是：

也就是说我们的目的就是惩罚那些线性叠加和不等于label的样本。然后我们最小化这个cost function，当cost function达到收敛的时候，这时候的参数就是我们需要的蚕食。我们有两种方法去优化我们的参数，上一个博客说了，我们线性回归的参数是有显式解的。就是上一节提到的normal equations，w=inv(X’*X)*X’*y。（X的每一行是一个样本），除此之外，我们也可以用梯度下降法来求得我们的参数，梯度下降法的解释将在下面的博客中提到，这里我们用一个例子来说明一下：

题目是：50个数据样本点，其中x为这50个小朋友到的年龄，年龄为2岁到8岁，年龄可有小数形式呈现。Y为这50个小朋友对应的身高，当然也是小数形式表示的。现在的问题是要根据这50个训练样本，估计出3.5岁和7岁时小孩子的身高。（数据下载）

采用normal equations方法求解：

 1 %%方法一
 2 x = load(‘ex2x.dat‘);
 3 y = load(‘ex2y.dat‘);
 4 plot(x,y,‘*‘)
 5 xlabel(‘height‘)
 6 ylabel(‘age‘)
 7 x = [ones(size(x，2),1),x]；%因为size（x）会出来的x这个向量两个维度

 8 %度，我们只需要第一个维度，我们还要再加一列1是因为这里把wx+b变成了w’x这样我们化成齐次的线性方程，所以我们要把x扩成一列1。
 9 w=inv(x‘*x)*x‘*y %这个就是解的公式
10 hold on
12 plot(x(:,2),0.0639*x(:,2)+0.7502）%这里的0.7502就是求得的w向量的第一个值，也就是wx+b的那个b，w第二个值就是wx+b的w

利用梯度下降法进行迭代求解系数

方法二：

 1 clear all; close all; clc
 2 x = load(‘ex2x.dat‘); y = load(‘ex2y.dat‘);
 3 m = length(y); % number of training examples
 4 % Plot the training data
 5 figure; % open a new figure window  这个figure也可以不写，没什么影响
 6 plot(x, y, ‘o‘);%用圆圈表示数据点 
 7 ylabel(‘Height in meters‘)%给y值写上代表什么意思
 8 xlabel(‘Age in years‘)
10 % Gradient descent
11 x = [ones(m, 1) x]; % Add a column of ones to x x最开始增加一列1,也就是每一个数据点增加一维，并且这一维都是1，
12 %相当于要求得线性方程是齐次的w‘x=Y，x是变成的二维的，Y代表根据训练的w‘x预测的Y值
13 theta = zeros(size(x(1,:)))‘; % initialize fitting parameters w‘初始化为[0;0]
14 MAX_ITR = 1500;
15 alpha = 0.07;%学习速率
17 for num_iterations = 1:MAX_ITR
18     grad = (1/m).* x‘ * ((x * theta) - y);%grd具体是怎么算的可以看下下面的推导，只是这里的1/m不知道是怎么得出来的，
19     %我的是2m，注意grad是一个2*1的向量。并且公式里面的形式
20     %跟这里有点不同，是因为在公式中xi代表一个向量，这里x是一个矩阵，并且每一行代表一个样本，所以这里代码中前面是x‘后面是x，
21     %在公式中正好相反    .* 是点乘，不是内积，向量的内积结果是个数，这还是一个向量
22   theta = theta - alpha .* grad;  %这里如果令grad=0求极值得到参数的方法就是前面的那个方法，这里不是grad=0，而是一次次 %的迭代，求最值。
23 end
24 hold on; % keep previous plot visible
25 plot(x(:,2), x*theta, ‘-‘)%这个就是回归曲线的那个图
26 legend(‘Training data‘, ‘Linear regression‘)%标出图像中各曲线标志所代表的意义，就是每个数据点表示成的圆圈或线段所代表 %的意义
27 hold off % don‘t overlay any more plots on this figure，指关掉前面的那幅图
28 % Closed form solution for reference
29 % You will learn about this method in future videos
30 exact_theta = (x‘ * x)\x‘ * y%不知道这是啥意思
31 % Predict values for age 3.5 and 7
32 predict1 = [1, 3.5] *theta
33 predict2 = [1, 7] * theta
34 % Grid over which we will calculate J
35 theta0_vals = linspace(-3, 3, 100);%生成一个从-3到3之间有均匀的100个元素的向量
36 theta1_vals = linspace(-1, 1, 100);
37 % initialize J_vals to a matrix of 0‘s
38 J_vals = zeros(length(theta0_vals), length(theta1_vals));
39 for i = 1:length(theta0_vals)
40       for j = 1:length(theta1_vals)
41       t = [theta0_vals(i); theta1_vals(j)];    
42       J_vals(i,j) = (0.5/m) .* (x * t - y)‘ * (x * t - y);%当参数的取值是从（-3,1）到（3,1）
43       %的矩形内均匀采样取值时（取了100*100个参数），所有样本xi与每个参数对应
44       %的回归方程的误差就是 J_vals(i,j)的一个值
45       end
46 end
47 J_vals = J_vals‘;
48 % Surface plot
49 figure;
50 surf(theta0_vals, theta1_vals, J_vals)%画出参数与损失函数的图像。注意用这个surf比较蛋疼，surf（X,Y,Z）是这样的，
51 %X,Y是向量，Z是矩阵，用X，Y铺成的网格（100*100个点）与Z的每个点
52 %形成一个图形，但是是怎么对应的哪，蛋疼之处就是，你的X的第二个元素与Y的第一个元素形成的那一个点不是和Z（2，1）的值对应！！
53 %而是和Z（1,2）对应！！因为前面形成Z（2，1）时，是X的第二个元素与Y的第一个元素
54 %所以J_vals前面才要转置。
55 xlabel(‘\theta_0‘); ylabel(‘\theta_1‘);
56 % Contour plot
57 figure;
58 % Plot J_vals as 15 contours spaced logarithmically between 0.01 and 100
59 contour(theta0_vals, theta1_vals, J_vals, logspace(-2, 2, 15))%画出等高线
60 xlabel(‘\theta_0‘); ylabel(‘\theta_1‘);%类似于转义字符，但是最多只能是到参数0~9

 实验结果：训练样本散点和回归曲线预测图：

技术分享

损失函数与参数之间的曲面图:

技术分享

参考：http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2961660.html

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

【machine learning细致讲解code逐行注释】之线性回归

标签： des 算法 class style 代码 com log src html des 算法 class style 代码 com log src html

【machine learning细致讲解code逐行注释】之线性回归

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

您可能还喜欢

您可能还喜欢

文摘排行

文章排行

推荐文章

图文排行

推荐图文