Weka决策树预测缺失值的NA处理

时间:2015-04-24 12:05:05

标签: tree weka decision-tree missing-data

嗨,目前我正在努力实施一个大的Hellinger距离决策树,我遇到了一个问题。我在树节点中有一个连续变量,我不知道如果我将为该变量保留缺失值,树将如何预测。 例如,该节点具有分裂标准< 250且> = 250。树在预测时会选择什么路径? 树培训数据也缺少该变量中的值。

也许我应该用特定的数字替换所有缺失值?

2 个答案:

答案 0 :(得分:0)

您可以根据变量的行为采取行动。还要考虑值对分类器的影响。因此,如果可以推广,您可以使用最小/最大/平均值作为缺失值。

答案 1 :(得分:0)

通常坚持输入不包含Null,然后用户可以在拟合之前找到对其进行编码的方法。如果您做出选择,那么您将迫使未来的用户使用您的选择。