机器学习算法笔记(十一):梯度下降法总结

一、梯度下降法的类型

1、批量梯度下降法(Batch Gradient Descent)

● 每一次都对所有样本进行计算,求出梯度。
● 缺点:运算速度较慢。
● 优点:稳定,按此梯度方向,损失函数一定减小最快。

2、随机梯度下降法(Stochastic Gradient Descent)

● 每一次只对随机抽取的一个样本,求出其梯度,作为 θ 的优化方向。
● 优点:运算速度较快。
● 缺点:不稳定,每一次的优化方向是不确定的,甚至有可能向反方向优化。

3、小批量梯度下降法(Mini-Batch Gradient Descent)

● 综合了批量梯度下降法和随机梯度下降法的优点,避免了它们的缺点。
● 思路:每次计算优化的方向(梯度),即不是查看所有样本也不只看一个样本,而是每次抽取 k 个样本,把这 k 个样本的梯度作为优化方向。
● 优点(一):比批量梯度下降法运算量小,速度快。
● 优点(二):比随机梯度下降法更稳定,获取的优化方向更能偏向批量梯度下降法中的梯度方向。
● 缺点:增加了一个新的超参数 k (每一批该查看多少个样本)。
● k 个样本的梯度求解:和批量梯度下降法的求解过程一样。

二、“随机”的思想

● 跳出局部最优解:更能找到损失函数的整体最优解,而不像批量梯度下降法那样,每次选取初始值后,可能只优化得到一个局部最小值,而不是损失函数整体的最小值。
● 更快的运行速度。
● 机器学习领域很多算法都要使用随机的特点:随机森林、随机搜索……

机器学习领域解决的本身就是在不确定的世界中的不确定的问题,它本身可能就没有一个固定的最优解,因此“随机”扮演了一个重要的角色。

三、梯度下降法理解回顾

● 不是一个机器学习算法。
● 是一种基于搜索的最优化方法。
● 作用:最小化一个损失函数。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注