在决策树

时间:2017-10-01 07:44:27

标签: machine-learning classification decision-tree data-analysis missing-data

我有一个数据集,其中一些变量(分类变量和数值变量)具有缺失值。例如,我有一个变量" area"数值分为两类,"区域(今天)"和"区域(-1天)"。如果数据行分类为"新来者"然后它将在"区域(-1天)和#34;上没有价值。因此,正常的缺失值处理,如删除或意味着不在这里工作。我是否必须在"区域(-1天)和#34;作为变量最初是数字的类别?或者,还有其他建议吗?

1 个答案:

答案 0 :(得分:0)

将新手作为一个单独的类进行处理是有道理的,因为这是你在数据集中对待它的方式 - 你有一个单独的区域列。

否则,您可以检查各种其他Imputation技术以适合您的使用案例。回归估算可能适合您的情况。

HTH