缺少ARFF(Weka)中的值

时间:2011-05-16 12:31:01

标签: weka decision-tree arff

Weka中的分类器(如决策树)如何解释'?' (在ARFF文件中代表缺失值)在学习阶段? Will Weka会用一些预定义的值(例如“0”或“false”)替换它,还是会以某种方式影响培训过程?

1 个答案:

答案 0 :(得分:7)

除了将缺失值作为属性值单独处理之外,在J48分类器的情况下,对具有缺失值的属性的任何分割将使用与观察到的非缺失值的频率成比例的权重来完成。这在Witten和Frank的教科书数据挖掘实用机器学习工具和技术(2005年,第2版,第63页和第191页)中有记载,然后他们报告了

  

最终,实例的各个部分将分别到达叶节点,并且必须使用渗透到叶子的权重重新组合这些叶节点的决策。

有关处理决策树中缺失值的更多信息,例如CART中的代理分割(与C4.5或其继承者J48相反),可以在wiki部分找到Classification Trees;在几篇文章中也讨论了插补的使用,例如: Handling missing data in trees: surrogate splits or statistical imputation