<统计学习方法> - 李航
重在推导过程,简单记录一些细节
第一章 统计学习方法概论
1.泛化误差/期望损失(风险函数):是理论模型f(X)关于联合分布P(X,Y)的平均意义下的损失.
2.训练误差(经验风险/经验损失):是模型f(X)关于训练数据集的平均损失
3.根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以一般用经验风险估计期望风险.但现实中训练样本数目有限,所以对经验风险要进行一定的矫正.经验风险最小化和结构风险最小化(正则化)
4.过拟合解决方案:
- 正则化
- 交叉验证
- 简单交叉验证
- K-Fold交叉验证
- 留一交叉验证
5.生成方法和判别方法比较
- 生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型$P(Y|X)=\frac{P(X,Y)}{P(X)}$.
- 判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型.
- 两者区别:
- 生成方法可以还原出联合概率分布,而判别方法不能;生成方法的学习收敛速度更快.
- 判别方法直接学习的式条件概率或决策函数,直接面对预测,往往学习的准确率更高.可以对数据进行各种程度上的抽象,定义特征并使用特征,简化学习问题.
6.回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归.
7.回归学习最常用的损失函数是平方损失函数 - 最小二乘法求解.
第二章 感知机
1.模型:$f(x)=sign(w\cdot{x}+b)$,找一个可以划分正负样例的超平面,属于判别模型
2.学习策略:损失函数定义为误分类点到超平面的总距离
3.学习算法:随机梯度下降
第三章 k近邻法
kd tree的划分方法和搜索方法参考网上资料
第四章 朴素贝叶斯
1.基于属性独立的强假设
2.朴素贝叶斯 -> 贝叶斯估计(防止有属性概率为0存在)
略
第五章 决策树
1.决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.
2.决策树学习过程包含三个步骤:特征选择,决策树的生成和决策树模型的修剪
3.决策树的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化,决策树的学习算法通常采用启发式方法,因为从所有可能的决策树中选取最优决策树是NP完全问题.
4.特征选择
4.1 特征选择的准则通常是选择信息增益或信息增益率(基尼系数)
4.2 熵:$H(p)=-\sum_{i=1}^{n}p_ilogp_i$,熵越大,不确定性越大
4.3 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性.$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)$
4.4 信息增益:特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即$g(D,A)=H(D)-H(D|A)$
4.5 信息增益比:特征A对训练集D的信息增益比$g_R(D,A)$定义为其信息增益$g(D,A)$与训练集D的经验熵H(D)之比为:$g_R(D,A)=\frac{g(D,A)}{H(D)}$
5.ID3算法/C4.5算法参考<西瓜书>,西瓜书上讲得略微好一点
6.CART算法:最小二乘法生成回归树,基于基尼系数生成回归树
7.剪枝策略:预剪枝和后剪枝 (参考西瓜书上) 将数据集分为训练集和验证集,用验证集来进行剪枝操作.
第六章 Logistic回归和最大熵模型
1.X服从Logistic分布是指X具有以下分布函数和密度函数:
式中,$\mu$为位置参数,$\gamma>0$为形状参数.
2.logistic回归策略:构造极大似然函数,使用梯度下降方法或拟牛顿法求解优化.
3.最大熵模型(待完善)
第七章 SVM
其他略,已经复习过
补充:SMO(序列最小最优化算法):
1.总体思路
- 选取一对需要更新的变量$\alpha_i$,$\alpha_j$
- 固定$\alpha_i$,$\alpha_j$以外的参数,求解对偶问题
2.具体细节
- First,SMO算法先选取违背KKT条件程度最大的变量
- Second,第二个变量理应选择一个使目标函数值减小最快的变量,但由于比较各变量所对应的目标函数值减幅的复杂度过高,因此SMO采用了一个启发式:使选取的两变量所对应样本之间的间隔最大.
第八章 提升方法
1.概念:对提升方法来说,有两个问题需要回答
- 在每一轮如何改变训练数据的权值或概率分布 - AdaBoost提高那些前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值
- 如何将弱分类器组合成一个强分类器 - AdaBoost采取加权多数表决的方法,具体地,加大分类误差率较小的弱分类器的权值,使其表决中起较大的作用,减小分类误差率较大的弱分类器的权值,使其再表决中其较小的作用.
2.AdaBoost
学习样本权重$D_m$,学习分类器权重$\alpha_m$
- $D_m={w_{m1},w_{m2},…,w_{mN}}$,样本权重和上一次的分类器分类结果有关
- $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$,$e_m$为分类误差错误率(算错误率时乘上样本权重)
3.提升树
前向分步法+拟合残差,在拟合残差时,如果损失函数是平方差函数或指数损失函数时,每一步优化很简单.如果是一般损失函数,则可以使用梯度提升算法.
4.Bagging和Stacking见<西瓜书>