假设一个函数为:

其图像及等高线如下(等高线中心的蓝点表示最小值):

如果用梯度下降去寻找最小值,梯度下降迭代n次。
X0 → X1 → X2 → ……… → Xn
梯度下降一次,从X0梯度下降求解X1.
假设当前的起始点为 X0 = (-3.5,-3.5),那么当前函数的梯度为:



假设我们每次迭代的步长为 0.1 ,由 X0 求出 X1 ,可以得到 X1 = (-2.8,-2.1) 。

可以看到向最小值方向前进了一步:

持续迭代n次
继续梯度下降,由 X1 求得 X2:

此时又会向最低点靠近,

迭代20次之后

核心公式为:

eta为步进值(学习率)
