通识

梯度下降

2026年4月18日 2026年4月18日

假设一个函数为：

其图像及等高线如下（等高线中心的蓝点表示最小值）:

如果用梯度下降去寻找最小值，梯度下降迭代n次。

X0 → X1 → X2 → ……… → Xn

梯度下降一次，从X0梯度下降求解X1.

假设当前的起始点为 X0 = (-3.5，-3.5)，那么当前函数的梯度为：

假设我们每次迭代的步长为 0.1 ，由 X0 求出 X1 ，可以得到 X1 = (-2.8,-2.1) 。

可以看到向最小值方向前进了一步：

持续迭代n次

继续梯度下降，由 X1 求得 X2：

此时又会向最低点靠近，

迭代20次之后

核心公式为：

eta为步进值(学习率)

发表回复取消回复