最小二乘法的实现与线性回归的应用

简单线性回归中，您有一个因变量y和一个自变量X。ymxby=mx+bymxb其中xxx: 自变量yyy: 因变量mmm: 斜率bbb: 截距最小二乘法是回归分析中用于估计线性回归模型参数的标准方法。它可以最小化误差的平方和，从而找到数据的最佳拟合直线。在这里，误差是实际值和预测值之间的差异。实际值是观察到的值，而预测值是模型的估计值。在这里，我们将使用最小二乘法来估计线性回归模型的参数。

十九（刘金帅）

1488人浏览 · 2023-09-13 13:15:32

十九（刘金帅） · 2023-09-13 13:15:32 发布

1. 简介

简单线性回归中，您有一个因变量y和一个自变量X。该模型可以表示为：

$y = m x + b$

其中

$x$ : 自变量
$y$ : 因变量
$m$ : 斜率
$b$ : 截距

最小二乘法是回归分析中用于估计线性回归模型参数的标准方法。它可以最小化误差的平方和，从而找到数据的最佳拟合直线。

在这里，误差是实际值和预测值之间的差异。实际值是观察到的值，而预测值是模型的估计值。

在这里，我们将使用最小二乘法来估计线性回归模型的参数。我们将使用以下公式来计算回归系数：

$\sum_{i=1}^{n}(y_i - (mx_i+b))^2$

根据链式法则，我们可以计算偏导数：

链式法则：

$\frac{\partial}{\partial x}[f(g(x))] = f'(g(x)) \cdot g'(x)$

公示得出，复合函数的导数等于外函数的导数乘以内函数的导数。

设： $u=y_i - (mx_i+b)$

所以：

$\frac{\partial}{\partial x}[f(g(x))] = u^2 \cdot (y_i - (mx_i+b))$

导数规则：

常数： $f (x) = c$ 的导数为0
幂规则： $f(x)=x^n$ 的导数为 $nx^{n-1}$
乘法常数规则： $\cdot g(x)的导数为c \cdot g'(x)$
和差规则： $\pm h(x)$ 的导数为 $\pm h'(x)$
乘法规则： $\cdot h(x)$ 的导数为 $\cdot h(x) + g(x) \cdot h'(x)$
链式法则： $f (x) = g (h (x))$ 的导数为 $\cdot h'(x)$

因为是二次方，所以使用幂规则：（ $u^2$ 的导数为 $2 u$ ）

$\frac{\partial }{\partial m} = 2u \cdot (-x_i)$

$\frac{\partial }{\partial m} = -2x_i \cdot (y_i - (mx_i+b))$

因为0的0次方等于1，所以：

$\frac{\partial }{\partial b} = -2u \cdot 1$

$\frac{\partial b}{\partial b} = -2(y_i - (mx_i+b))$

我们可以通过求导数来找到最小值。我们将导数设置为0，然后解出m和b。

$\frac{\partial ssh}{\partial m} = -2 \sum_{i=1}^{n}x_i(y_i - (mx_i+b)) = 0$

$\frac{\partial ssh}{\partial b} = -2 \sum_{i=1}^{n}(y_i - (mx_i+b)) = 0$

$\sum_{i=1}^{n}x_i(y_i - (mx_i+b)) = 0$

$\sum_{i=1}^{n}(y_i - (mx_i+b)) = 0$

$\sum_{i=1}^{n}x_iy_i - m\sum_{i=1}^{n}x_i^2 - b\sum_{i=1}^{n}x_i = 0$

$\sum_{i=1}^{n}y_i - m\sum_{i=1}^{n}x_i - nb = 0$

接下来，我们将解出m和b。

关于b的方程：

$\sum_{i=1}^{n}y_i - m\sum_{i=1}^{n}x_i$

$\frac{\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i}{n}$

关于m的方程：

我们已知b的值，所以我们可以将其代入方程中：

$\sum_{i=1}^{n}x_iy_i - m\sum_{i=1}^{n}x_i^2 - \frac{\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i}{n}\sum_{i=1}^{n}x_i = 0$

乘n消除分母：

$n\sum_{i=1}^{n}x_iy_i - mn\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i)\sum_{i=1}^{n}x_i = 0$

$n\sum_{i=1}^{n}x_iy_i - mn\sum_{i=1}^{n}x_i^2 - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i + m\sum_{i=1}^{n}x_i\sum_{i=1}^{n}x_i = 0$

$n\sum_{i=1}^{n}x_iy_i - mn\sum_{i=1}^{n}x_i^2 - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i + m(\sum_{i=1}^{n}x_i)^2 = 0$

得出mn的方程：

$mn\sum_{i=1}^{n}x_i^2 - m(\sum_{i=1}^{n}x_i)^2 = n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i$

$m(n\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}x_i)^2) = n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i$

$\frac{n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i}{n\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}x_i)^2}$

此时，我们已经得到了m和b的值。分别为：

$\frac{n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i}{n\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}x_i)^2}$

$\frac{\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i}{n}$

简写为：

$\frac{n(\sum_{}^{}xy) - (\sum_{}^{}x)(\sum_{}^{}y)}{n(\sum_{}^{}x^2) - (\sum_{}^{}x)^2}$

$\frac{\sum_{}^{}y - m(\sum_{}^{}x)}{n}$

我们可以使用这些公式来计算m和b的值。然后，我们可以使用这些值来计算预测值。

2. 代码实现

2.1 导入库

import numpy as np
import matplotlib.pyplot as plt

2.2 生成数据

x = np.array([1, 2])
y = np.array([2, 3])

在这里插入图片描述

2.3 计算m和b的值

n = len(x)
m = (n * np.sum(x * y) - np.sum(x) * np.sum(y)) / (n * np.sum(x ** 2) - np.sum(x) ** 2)
b = (np.sum(y) - m * np.sum(x)) / n
m,b

得出结果：

(1.0, 1.0)

2.4 计算预测值

根据线性回归模型：

$y = m x + b$

因为m和b的值都为1，所以：

$y = x + 1$

假设x为3，那么y的值为：

$y = 3 + 1 = 4$

在这里插入图片描述

3. 其他

你可以记录下来，然后使用这些公式来计算m和b的值。然后，您可以使用这些值来计算预测值。

我们使用的值比较简单，你可以尝试使用更多的值来计算m和b的值。不过，这些值必须是线性相关的。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

cover

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

cover

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工

MCP技术社区

所有评论(0)

查看更多评论

十九（刘金帅）

已为社区贡献1条内容