连续值
离散化
连续值属性离散化,二分法
对于连续属性a,有n个样本,考察包含n-1个区间的中点作为候选的划分点:
信息增益
选取能够获得信息增益最大的点t进行二分
注意
注意
连续值属性可多次作为划分节点(划分值不同),每次划分出两个分支;但离散值属性只可划分一次,分出多个分支。
缺失值
有些样本缺失某些属性值,如图:
如果只要样本有缺失的值就舍弃,会浪费大量数据。
问题
- 如何在缺失值的数据集上进行属性划分。也就是对于某一个或几个属性,样本有缺失的值,我们如何计算信息增益等指标进行划分属性的选取。
- 给定划分属性,若样本在该属性上缺失值,如何划分。也就是选好了划分属性,对于缺失该的样本,如何将其归类。
解决方案
总结
这里总结一下,针对问题1如何选取分类属性,我们就分别针对每一个属性,计算该属性值没有缺失样本的信息增益,选择最大的作为分类属性。
确定好分类属性后,对于在该属性值缺失的样本,将其归入所有的分支节点,同时按可能的概率更改权重