12. 梯度下降法实现与应用#

12.1. 介绍#

逻辑回归实验中，我们学会使用梯度下降方法求解。梯度下降作为一种最优化方法，可以普遍用于参数问题的优化过程中。为了更好地体会这种方法的优点和了解其使用过程，本次挑战中将尝试使用梯度下降解决前面学习过的线性回归问题。

12.2. 知识点#

最小二乘法求解线性回归参数
梯度下降法求解线性回归参数

还记得学习过的「线性回归」吗？我们使用了普通最小二乘法 OLS 来求解线性回归拟合参数。当然，根据不同的计算方法，OLS 又可以分为代数求解和矩阵求解。

首先，我们复习一下线性回归普通最小二乘法代数求解过程。对于一元线性方程：

\[ y ( x , w ) = w _ { 0 } + w _ { 1 } x \tag{1} \]

定义其平方损失函数为：

\[ f = \sum _ { i = 1 } ^ { n } \left( y _ { i } - \left( w _ { 0 } + w _ { 1 } x _ { i } \right) \right) ^ { 2 } \tag{2} \]

接下来，求平方损失函数 1 阶偏导数：

\[ \frac { \partial f } { \partial w _ { 0 } } = - 2 \sum _ { i = 1 } ^ { n } \left( y _ { i } - \left( w _ { 0 } + w _ { 1 } x _ { i } \right) \right) \tag{3a} \]

\[ \frac { \partial f } { \partial w _ { 1 } } = -2 \sum _ { i = 1 } ^ { n } x _ { i } \left( y _ { i } - \left( w _ { 0 } + w _ { 1 } x _ { i } \right) \right) \tag{3b} \]

然后，我们令 \(\frac{\partial f}{\partial w_{0}}=0\) 以及 \(\frac{\partial f}{\partial w_{1}}=0\)，解得：

\[ w _ { 0 } = \frac { \sum x _ { i } ^ { 2 } \sum y _ { i } - \sum x _ { i } \sum x _ { i } y _ { i } } { n \sum x _ { i } ^ { 2 } - \left( \sum x _ { i } \right) ^ { 2 } } \tag{4a} \]

\[ w _ { 1 } = \frac { n \sum x _ { i } y _ { i } - \sum x _ { i } \sum y _ { i } } { n \sum x _ { i } ^ { 2 } - \left( \sum x _ { i } \right) ^ { 2 } } \tag{4b} \]

至此，我们就用代数的方式求解出线性方程的参数了。下面使用 Python 代码实现 OLS 代数求解函数。

Exercise 12.1

挑战：根据公式 (4) 完成普通最小二乘法代数计算函数。

def ols_algebra(x, y):
    """
    参数:
    x -- 自变量数组
    y -- 因变量数组

    返回:
    w1 -- 线性方程系数
    w0 -- 线性方程截距项
    """

    ### 代码开始 ### (≈ 3 行代码)
    w1 = None
    w0 = None
    ### 代码结束 ###

    return w1, w0

Solution to Exercise 12.1

def ols_algebra(x, y):
    """
    参数:
    x -- 自变量数组
    y -- 因变量数组

    返回:
    w1 -- 线性方程系数
    w0 -- 线性方程截距项
    """
    
    ### 代码开始 ### (≈ 3 行代码)
    n = len(x)
    w1 = (n*sum(x*y) - sum(x)*sum(y))/(n*sum(x*x) - sum(x)*sum(x))
    w0 = (sum(x*x)*sum(y) - sum(x)*sum(x*y))/(n*sum(x*x)-sum(x)*sum(x))
    ### 代码结束 ###
    
    return w1, w0

下面，我们提供一组测试数据。

import numpy as np

x = np.array([55, 71, 68, 87, 101, 87, 75, 78, 93, 73])
y = np.array([91, 101, 87, 109, 129, 98, 95, 101, 104, 93])

运行测试

w1, w0 = ols_algebra(x, y)
round(w1, 3), round(w0, 3)

期望输出

(0.718, 44.256)

至此，我们得到了最终计算结果：

\[ y=0.718∗x+44.256 \]

线性回归问题除了可以使用普通最小二乘法求解之外，实际上还可以使用迭代法求解。这里，我们可以应用逻辑回归实验中学习到的梯度下降方法来求解线性回归问题。

我们依旧沿用上面的平方损失函数。那么当使用迭代法时，只需要修改一个步骤。也就是不再令 \(\frac{\partial f}{\partial w_{0}}=0\) 以及 \(\frac{\partial f}{\partial w_{1}}=0\)，而是使用梯度下降法求解参数：

\[ w _ { 0 } = w _ { 0 } - l r * \frac { \partial f } { \partial w _ { 0 } } \tag{5a} \]

\[ w _ { 1 } = w _ { 1 } - l r * \frac { \partial f } { \partial w _ { 1 } } \tag{5b} \]

下面使用 Python 代码实现梯度下降法求解过程。

Exercise 12.2

挑战：根据公式 (3) 和公式 (5) 完成普通最小二乘法代数计算函数。

def ols_gradient_descent(x, y, lr, num_iter):
    """
    参数:
    x -- 自变量数组
    y -- 因变量数组
    lr -- 学习率
    num_iter -- 迭代次数

    返回:
    w1 -- 线性方程系数
    w0 -- 线性方程截距项
    """

    ### 代码开始 ### (> 5 行代码)
    w1 = None
    w0 = None
    ### 代码结束 ###

    return w1, w0

Solution to Exercise 12.2

def ols_gradient_descent(x, y, lr, num_iter):
    """
    参数:
    x -- 自变量数组
    y -- 因变量数组
    lr -- 学习率
    num_iter -- 迭代次数

    返回:
    w1 -- 线性方程系数
    w0 -- 线性方程截距项
    """

    ### 代码开始 ### (> 5 行代码)

    w1 = 0  # 初始参数为 0
    w0 = 0  # 初始参数为 0

    for i in range(num_iter):  # 梯度下降迭代
        # 计算近似值
        y_hat = (w1 * x) + w0
        # 计算参数对应梯度
        w1_gradient = -2 * sum(x * (y - y_hat))
        w0_gradient = -2 * sum(y - y_hat)
        # 根据梯度更新参数
        w1 -= lr * w1_gradient
        w0 -= lr * w0_gradient

    ### 代码结束 ###

    return w1, w0

运行测试

w1_, w0_ = ols_gradient_descent(x, y, lr=0.00001, num_iter=100)
round(w1_, 3), round(w0_, 3)

期望输出

(1.264, 0.038)

至此，我们得到了最终计算结果：

\[ y=1.264∗x+0.038 \]

你会发现迭代法和我们上面使用 OLS 计算的精确解有一些出入。实际上主要是截距项的差异，不过截距项对线性方程的影响较小。我们可以通过绘图来对比两种方法拟合效果。

from matplotlib import pyplot as plt

%matplotlib inline

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

axes[0].scatter(x, y)
axes[0].plot(np.array([50, 110]), np.array([50, 110]) * w1 + w0, "r")
axes[0].set_title("OLS")
axes[1].scatter(x, y)
axes[1].plot(np.array([50, 110]), np.array([50, 110]) * w1_ + w0_, "r")
axes[1].set_title("Gradient descent")

可以看出，图像显示的结果还是非常接近的。

线性回归方法之所以使用普通最小二乘法来求解，是因为我们可以很方便地求出损失函数的最小值。但是，机器学习中的很多问题，往往会面对非常复杂的损失函数，这些损失函数一般无法直接求得最小值，只能使用迭代方法来求取局部或全局极小值。这也就是我们学习梯度下降等迭代方法的原因。

如果你觉得这些内容对你有帮助，可以通过微信赞赏码或者 Buy Me a Coffee 请我喝杯咖啡。