-
决策树像是 if-then 的规则集合。
-
决策树很可能发生过拟合现象,这时需要自下而上的剪枝。决策树的生成只考虑局部最优,而剪枝考虑全局最优。
-
特征选择时需要选取具有分类能力的特征,如果利用一个特征进行分类与随机分类的结果没有区别,则称这个特征没有分类能力。通常特征选择的标准是信息增益或信息增益比。
-
信息增益
-
熵(entropy)表示的是一个随机变量不确定的程度。设 是一个取有限值的离散随机变量,它的熵定义为:
如果与 取值无关,只与其分布有关,还可以记作 。对数以 2 为底时,熵的单位为比特(bit);以 为底时,单位为奈特(nat)。
-
条件熵 表示已知 的条件下,随机变量 的不确定程度:
-
信息增益:指给定特征 的情况下,训练数据集 的不确定性的减少量:
在信息论中称为互信息。 是由训练集的经验概率得到的,所以称为经验熵。
-
在实际选取过程中,根据信息增益大小选择特征。
-
为了解决偏向于选择取值较多的特征的问题,可以用信息增益比:
其中,
-
-
决策树的生成
- ID3 算法:每次挑选信息增益最大的特征分裂数据集,直到信息增益小于某一阈值。
- C4.5 算法:改进了 ID3 算法,使用信息增益比。
-
决策树的剪枝
-
决策树的剪枝通过极小化决策树的损失函数完成。
-
决策树的损失函数定义为:
其中,经验熵为:
通常,记:
这时有:
-
设一组节点回缩到其父节点之前与之后的整体树分别为 与 ,其对应的损失函数分别为 与 ,如果:
则进行剪枝,即将父节点变为新的叶节点。重复这一过程,直至不能进行为止。
-
-
CART 算法
- CART(classification and regression tree)
- 回归树: 和 分别为输入变量与输出变量,且 为连续变量。
- 分类树:
- 基尼系数。
- 根据基尼系数生成分类树。
《统计学习方法》读书笔记5:决策树
Share this post on: