监督学习方法总结

1. 适用问题监督学习：学习一个模型，使它能对给定的输入预测相应的输出。包括分类、标注、回归。分类问题：从实例的特征向量到类标记的预测问题标注问题：从观测序列到标记序列(或状态序列) 的预测问题。感知机、k近邻法、朴素贝叶斯法、决策树是简单的分类方法，具有模型直观、方法简单、实现容易等特点逻辑斯谛回归、最大熵模型、支持向量机、提升方法是更复杂但更有效的分类方法，往...

Michael阿明

10689人浏览 · 2020-04-06 16:50:09

Michael阿明 · 2020-04-06 16:50:09 发布

文章目录

1. 适用问题

监督学习：学习一个模型，使它能对给定的输入预测相应的输出。包括分类、标注、回归。

分类问题：从实例的特征向量到类标记的预测问题
标注问题：从观测序列到标记序列(或状态序列) 的预测问题。

感知机、k近邻法、朴素贝叶斯法、决策树 是简单的分类方法，具有模型直观、方法简单、实现容易等特点

逻辑斯谛回归、最大熵模型、支持向量机、提升方法 是更复杂但更有效的分类方法，往往分类准确率更高

隐马尔可夫模型、条件随机场是主要的标注方法。通常条件随机场的标注准确率更高

2. 模型

2.1 概率模型、非概率模型

预测模型可以写成条件概率分布 $P (Y ∣ X)$ 或决策函数 $Y = f (X)$ 的形式。

朴素贝叶斯法、隐马尔可夫模型 是概率模型
感知机、k近邻法、支持向量机、提升方法 是非概率模型
决策树、逻辑斯谛回归、最大熵模型、条件随机场既可以看作是概率模型，又可以看作是非概率模型

2.2 判别方法、生成方法

直接学习条件概率分布 $P (Y ∣ X)$ 或决策函数 $Y = f (X)$ 的方法为判别方法

对应的模型是判别模型：感知机、k近邻法、决策树、逻辑斯谛回归、最大熵模型、支持向量机、提升方法、条件随机场

首先学习联合概率分布 $P (X, Y)$ ，从而求得条件概率分布 $P (Y ∣ X)$ 的方法是生成方法

对应的模型是生成模型：朴素贝叶斯法、隐马尔可夫模型

2.3 特征空间

决策树是定义在一般特征空间上的，可以含有连续变量或离散变量

感知机、支持向量机、k近邻法 的特征空间是欧氏空间(一般地，希尔伯特空间)

提升方法 的模型是弱分类器的线性组合，弱分类器的特征空间就是提升方法模型的特征空间

2.4 线性、非线性模型

感知机模型是 线性模型
逻辑斯谛回归、最大熵模型、条件随机场 是对数线性模型
k近邻法、决策树、支持向量机(包含核函数)、提升方法 是非线性模型

3. 学习策略

在二类分类的监督学习中，支持向量机、逻辑斯谛回归&最大熵模型、提升方法
各自使用 合页损失函数、逻辑斯谛损失函数、指数损失函数，分别写为：

$1-y f(x)]_{+}$

$\log [1+\exp (-y f(x))]$

$\exp (-y f(x))$

这3种损失函数都是0-1损失函数的上界，具有相似的形状

在这里插入图片描述

可以认为支持向量机、逻辑斯谛回归&最大熵模型、提升方法使用不同的代理损失函数(surrogateloas Punotion)表示分类的损失，定义经验风险或结构风险函数，实现二类分类学习任务。

学习的策略 是优化结构风险函数：

$\min _{f \in H} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$

第1项为 经验风险(经验损失)，第2项为正则化项， $L (y, f (x))$ 为损失函数， $J (f)$ 为模型的复杂度， $\lambda \geq 0$ 为系数。

支持向量机用 $L_2$ 范数表示模型的复杂度
原始的逻辑斯谛回归与最大熵模型没有正则化项，可以给它们加上 $L_2$ 范数正则化项
提升方法没有显式的正则化项，通过早停止(early stopping)的方法达到正则化的效果

概率模型的学习 可以形式化为 极大似然估计 或 贝叶斯估计的极大后验概率估计

学习的策略是极小化对数似然损失或极小化正则化的对数似然损失

对数似然损失可以写成： $-\log P(y|x)$

极大后验概率估计时，正则化项是先验概率的负对数

决策树 学习的策略是正则化的极大似然估计，损失函数是对数似然损失，正则化项是决策树的复杂度

逻辑斯谛回归&最大熵模型、条件随机场 的学习策略既可以看成是极大似然估计(或正则化的极大似然估计)，又可以看成是极小化逻辑斯谛损失(或正则化的逻辑斯谛损失)

朴素贝叶斯模型、隐马尔可夫模型 的非监督学习也是极大似然估计或极大后验概率估计，但这时模型含有隐变量

4. 学习算法

统计学习的问题有了具体的形式以后，就变成了最优化问题

朴素贝叶斯法、隐马尔可夫模型的监督学习，最优解即极大似然估计值，可以由概率计算公式直接计算。
感知机、逻辑斯谛回归 & 最大熵模型、条件随机场的学习利用梯度下降法、拟牛顿法等一般的无约束最优化问题的解法
支持向量机学习，可以解凸二次规划的对偶问题。有序列最小最优化算法等方法
决策树学习是基于启发式算法的典型例子。可以认为特征选择、生成、剪枝是启发式地进行正则化的极大似然估计。
提升方法利用学习的模型是加法模型、损失函数是指数损失函数的特点，启发式地从前向后逐步学习模型，以达到逼近优化目标函数的目的
EM算法是一种迭代的求解含隐变量概率模型参数的方法，它的收敛性可以保证，但不能保证收敛到全局最优
支持向量机、逻辑斯谛回归 & 最大熵模型、条件随机场学习是凸优化问题，全局最优解保证存在。而其他学习问题则不是凸优化问题

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工