统计学习方法笔记

统计学习方法

待学习

  • EM算法的推广:EM算法还可以解释为F函数(F function)的极大-极大算法
  • 9.3.2 高斯混合模型参数估计的EM算法
  • 第11章 条件随机场,重要

最大熵模型

书中位置

公式推导部分:

https://blog.csdn.net/dashuye4/article/details/38032843

https://zhuanlan.zhihu.com/p/59519202

https://blog.csdn.net/v_JULY_v/article/details/40508465

待学习:拟牛顿法

6.2.1 最大熵原理

熵满足下列不等式:

式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大。

笔记

2.3.3 感知机学习算法的对偶形式

实例点更新次数越多,意味着它距离分离超平面越近,也就越难正确分类。换句话说,这样的实例对学习结果影响最大。

第7章 支持向量机

在线性可分情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量(support vector)。

在决定分离超平面时只有支持向量起作用,而其他实例点并不起作用。如果移动支持向量将改变所求的解;但是如果在间隔边界以外移动其他实例点,甚至去掉这些点,则解是不会改变的。由于支持向量在确定分离超平面中起着决定性作用,所以将这种分类模型称为支持向量机。支持向量的个数一般很少,所以支持向量机由很少的“重要的”训练样本确定。

7.2.4 合页损失函数

对于线性支持向量机学习来说,其模型为分离超平面w·x+b=0及决策函数f(x)=sign(w·x+b),其学习策略为软间隔最大化,学习算法为凸二次规划。

核函数K(x,z)给定的条件下,可以利用解线性分类问题的方法求解非线性分类问题的支持向量机。学习是隐式地在特征空间进行的,不需要显式地定义特征空间和映射函数。这样的技巧称为核技巧,它是巧妙地利用线性分类学习方法与核函数解决非线性问题的技术。在实际应用中,往往依赖领域知识直接选择核函数,核函数选择的有效性需要通过实验验证。

7.3.3 常用核函数

  1. 多项式核函数
  2. 高斯核函数
  3. 字符串核函数

第8章 提升方法

对提升方法来说,有两个问题需要回答:一是在每一轮如何改变训练数据的权值或概率分布;二是如何将弱分类器组合成一个强分类器。关于第1个问题,AdaBoost的做法是,提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注。于是,分类问题被一系列的弱分类器“分而治之”。至于第2个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法。具体地,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。

8.4.3 梯度提升

提升树利用加法模型与前向分歩算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时,每一步优化是很简单的。但对一般损失函数而言,往往每一步优化并不那么容易。针对这一问题,Freidman提出了梯度提升(gradient boosting)算法。这是利用最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值

作为回归问题提升树算法中的残差的近似值,拟合一个回归树。

9.1.1 EM算法

一般地,用Y表示观测随机变量的数据,Z表示隐随机变量的数据。Y和Z连在一起称为完全数据(complete-data),观测数据Y又称为不完全数据(incomplete-data)。

定理只能保证参数估计序列收敛到对数似然函数序列的稳定点,不能保证收敛到极大值点。所以在应用中,初值的选择变得非常重要,常用的办法是选取几个不同的初值进行迭代,然后对得到的各个估计值加以比较,从中选择最好的。

第10章 隐马尔可夫模型

隐马尔可夫模型预测的两种算法:近似算法与维特比算法

近似算法的优点是计算简单,其缺点是不能保证预测的状态序列整体是最有可能的状态序列,因为预测的状态序列可能有实际不发生的部分。事实上,上述方法得到的状态序列中有可能存在转移概率为0的相邻状态,即对某些i,j,aij=0时。尽管如此,近似算法仍然是有用的。

维特比算法实际是用动态规划解隐马尔可夫模型预测问题,即用动态规划(dynamic programming)求概率最大路径(最优路径)。这时一条路径对应着一个状态序列。

第11章 条件随机场

为什么是最大团的乘积? 理解 Hammersley Clifford 定理。证明:https://blog.csdn.net/csuyzt/article/details/81709439

无向图的联合概率分布等于最大团乘积,也等于所有团乘积,前者更简洁。将一个图中的每个最大团,单独视为一张图,它等于它的所有团乘积,将这些最大团相乘,就等于整张图的所有团相乘?

有向图模型与无向图模型的对比:

1 共同之处

将复杂的联合分布分解为多个因子的乘积

2 不同之处

有向图模型因子是概率分布、无需全局归一

无向图模型因子是势函数,需要全局归一

3 优缺点

无向图模型中势函数设计不受概率分布约束,

设计灵活,但全局归一代价高

有向图模型无需全局归一、训练相对高效

线性链条件随机场的参数化形式:

第一类是定义在Y节点上的节点特征函数,这类特征函数只和当前节点有关,第二类是定义在Y上下文的局部特征函数,这类特征函数只和当前节点和上一个节点有关,具体示例:https://iii.run/archives/181.html

条件随机场的矩阵形式https://blog.csdn.net/xueyingxue001/article/details/51498968

维特比算法是一种动态规划算法。

总结

机器学习

特征处理

数据的类型:有序无序、离散连续

数据相关性:Pearson 系数

无序特征:One-hot;

有序特征:

连续值处理为二值特征方法:先将连续值离散化,再将离散化后的特征切分为N个二元特征,每个特征代表是否在这个区间内。

距离度量

  1. 欧式距离
  2. 马氏距离:加上协方差矩阵的逆,考虑特征的重要性
  3. cos 距离:常用在 NLP 中,大量稀疏特征的情况

标准化和归一化

哪些算法需要标准化/归一化?

机器学习面试之归一化与标准化

逻辑回归必须要进行标准化吗?

如果你不用正则,那么,标准化并不是必须的,如果你用正则,那么标准化是必须的。(因为不用正则时,我们的损失函数只是仅仅在度量预测与真实的差距,加上正则后,我们的损失函数除了要度量上面的差距外,还要度量参数值是否足够小。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。)

如果不用正则,那么标准化对逻辑回归有什么好处吗?

答案是有好处,进行标准化后,我们得出的参数值的大小可以反应出不同特征对样本label的贡献度,方便我们进行特征筛选。如果不做标准化,是不能这样来筛选特征的。

做标准化有什么注意事项吗?

最大的注意事项就是先拆分出test集,不要在整个数据集上做标准化,因为那样会将test集的信息引入到训练集

评估

  1. MSE/RMSE
  2. Precision/Recall
  3. ROC/AUC
  4. FP/TP

维数约简

主成分分析:最大化方差、最小化残差(奇异值分解SVD)

0%