machine learning

1. 梯度下降法

    导数为0, 所以直接沿导数方向。

    learning rate 过小:,过大。

    越靠近极值,梯度下降步长越小。

    用上所有的training数据,叫batch gradient descent.

    计算梯度时要用同一个时刻的值,不能用更新后的值。

    迭代停止条件:

2. feature scaling

   不scaling的话,则等高线会细长,梯度下降法怎需要很多步寻找极值。

   最大最小值scaling,均值scaling,std scaling(分母可为方差,或者数据范围)

   如果本身尺度变化不大的话,则不需要scaling

3. 尺度因子

    极值越来越大或大小不定,原因:alpha太大;

4. 如何选择特征和regression函数

     尽量减少冗余度,可以变换变量的次数。

5. 何时需要feature scaling

    梯度下降时需要,normal equation不需要

6. 方法选择

    normal equation:特征维数大时难以求导。

    维数小:梯度法;

    维度大:normal equation方法。

7. linear cost function和logistic cost function区别

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。