机器学习入门学习笔记：（2.3）对数几率回归推导

理论推导在以前的博客（机器学习入门学习笔记：（2.1）线性回归理论推导）中推导了单元线性回归和多元线性回归的模型。将线性回归模型简写为：y=ωTx+by = \omega^Tx+b；对数线性回归模型可以写成：ln(y)=ωT+bln(y) = \omega^T + b；本质上仍然是线性回归，只不过拟合的是非线性的ln函数了。更一般地，考虑单调可微函数g(.)g(.)，令

hongbin_xu

9900人浏览 · 2017-10-18 10:59:06

hongbin_xu · 2017-10-18 10:59:06 发布

理论推导

在以前的博客（机器学习入门学习笔记：（2.1）线性回归理论推导）中推导了单元线性回归和多元线性回归的模型。
将线性回归模型简写为： y=ωTx+b <script type="math/tex" id="MathJax-Element-1505">y = \omega^Tx+b</script>；
对数线性回归模型可以写成： ln(y)=ωT+b <script type="math/tex" id="MathJax-Element-1506">ln(y) = \omega^T + b</script>；本质上仍然是线性回归，只不过拟合的是非线性的ln函数了。
更一般地，考虑单调可微函数 g(.) <script type="math/tex" id="MathJax-Element-1507">g(.)</script>，令 y=g−1(ωTx+b) <script type="math/tex" id="MathJax-Element-1508">y = g^{-1}(\omega^T x + b)</script>；这个模型就叫做广义线性回归模型。（直接抄书的，实在不擅长背定义QAQ）
对于二分类任务，输出标记为 y∈{0,1} <script type="math/tex" id="MathJax-Element-1509">y\in\lbrace0, 1\rbrace</script>，而线性回归的预测结果 h(x)=ωTx+b <script type="math/tex" id="MathJax-Element-1510">h(x) = \omega^T x + b</script>，很明显是一个连续值，所以需要将其转换为 0/1 <script type="math/tex" id="MathJax-Element-1511">0 / 1</script>值。
所以要用到单位阶越函数：

y = ⎧ ⎩ ⎨ 0, h (x) < 0; 0.5, h (x) = 0; 1, h (x) > 0;

g−1(.) <script type="math/tex" id="MathJax-Element-1513">g^{-1}(.)</script>必须是一个可微的函数，所以阶跃函数不能用作

g−1(.) <script type="math/tex" id="MathJax-Element-1514">g^{-1}(.)</script>，还需要找一个连续函数代替阶跃函数。
我们常用 对数几率函数（logistic function）来进行替代：

y = 1 1 + e - z

g−1(.) <script type="math/tex" id="MathJax-Element-1516">g^{-1}(.)</script>，代入到广义线性回归的公式中：

y = 1 1 + e - ( ω T x + b )

ln (y 1 - y) = ω T x + b

ln(y1−y) <script type="math/tex" id="MathJax-Element-1519">\ln(\frac{y}{1-y})</script>其实就是“对数几率”，等式右边的是什么不用说了吧。可以看出，对数几率回归实质上就是使用线性回归模型（

ωTx+b <script type="math/tex" id="MathJax-Element-1520">\omega^Tx+b</script>）来逼近这个对数几率（

ln(y1−y) <script type="math/tex" id="MathJax-Element-1521">\ln(\frac{y}{1-y})</script>）。
好的，那么问题来了。如何求解出这个模型中的未知参数

ω <script type="math/tex" id="MathJax-Element-1522">\omega</script>和

b <script type="math/tex" id="MathJax-Element-1523">b</script>呢？
只考虑二分类的情况下，将y换成后验概率

P(y=1|x)<script type="math/tex" id="MathJax-Element-1524">P(y=1|x)</script>来表示，同理1-y可以换成

P(y=0|x) <script type="math/tex" id="MathJax-Element-1525">P(y=0|x)</script>。
则有：

{ln (P ( y = 1 | x ) P ( y = 0 | x )) = ω T x + b P (y = 1 | x) + P (y = 0 | x) = 1

⎧ ⎩ ⎨ P (y = 1 | x) = e ω T x + b 1 + e ω T x + b P (y = 0 | x) = 1 1 + e ω T x + b

ω <script type="math/tex" id="MathJax-Element-1528">\omega</script>和

b <script type="math/tex" id="MathJax-Element-1529">b</script>：

L (ω, b) = \sum i = 1 m ln (P (y i | x i; ω, b))

β <script type="math/tex" id="MathJax-Element-1531">\beta</script>来表示

ω <script type="math/tex" id="MathJax-Element-1532">\omega</script>和

b <script type="math/tex" id="MathJax-Element-1533">b</script>，令

β={ωb}<script type="math/tex" id="MathJax-Element-1534">\beta=\left\{\begin{matrix}\omega & b\end{matrix}\right\}</script>。
同时也要给x矩阵补上一列1，令

x′={x1} <script type="math/tex" id="MathJax-Element-1535">x^{'} = \left\{\begin{matrix} x & 1\end{matrix}\right\}</script>。因为要对应参数b，补上1，保证结果不变。
那么，

ωTx+b=βTx′ <script type="math/tex" id="MathJax-Element-1536">\omega^Tx+b = \beta^Tx^{'}</script>。
由于是二分类，即只有

y=0 <script type="math/tex" id="MathJax-Element-1537">y=0</script>和

y=1 <script type="math/tex" id="MathJax-Element-1538">y=1</script>的情况，那么可以将似然项重写为

y=0 <script type="math/tex" id="MathJax-Element-1539">y=0</script>和

y=1 <script type="math/tex" id="MathJax-Element-1540">y=1</script>的情况相加：

p (y i | x i; β) = y i \times p (y = 1 | x' i; β) + (1 - y i) \times p (y = 0 | x' i; β)

ln [p (y i | x i; β)] = y i \times ln [p (y = 1 | x' i; β)] + (1 - y i) \times ln [p (y = 0 | x' i; β)]

L(β)=∑mi=1ln(P(yi|xi;β)) <script type="math/tex" id="MathJax-Element-1543">L(\beta) = \sum_{i=1}^m\ln(P(y_i|xi;\beta))</script>
联立前面推出的后验概率的结果：

⎧ ⎩ ⎨ P (y = 1 | x) = e ω T x + b 1 + e ω T x + b P (y = 0 | x) = 1 1 + e ω T x + b

L (β) = \sum i = 1 m (y i β T x' i - ln (1 + e β T x' i))

由于是极大似然，我们需要求出其极大值，所以有：

β * = a r g m a x m L (β)

L(β) <script type="math/tex" id="MathJax-Element-1547">L(\beta)</script>最大的最优解等价于求出使

−L(β) <script type="math/tex" id="MathJax-Element-1548">-L(\beta)</script>最小的解，所以有：

β * = a r g m a x m L (β) = a r g m i n m L (β) = \sum i = 1 m (- y i β T x' i + ln (1 + e β T x' i))

L(β) <script type="math/tex" id="MathJax-Element-1550">L(\beta)</script>函数的最优解

β∗ <script type="math/tex" id="MathJax-Element-1551">\beta^*</script>。

以上仅是个人学习笔记分享用，也留作我自己以后温习。
(>.<)

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

MCP 实战第一课：让 DeepSeek 接管你的电脑

MCP技术社区

MCP结合高德地图完成配置

MCP技术社区

2025最新大模型常见面试题汇总（含答案），面试还得八股文，不背不行啊，非常详细收藏我这一篇就够了！

MCP技术社区

所有评论(0)

查看更多评论

hongbin_xu

@hongbin_xu

已为社区贡献2条内容