处理Scikit学习决策树中的非复杂功能

时间:2018-04-06 15:01:49

标签: scikit-learn decision-tree

在我的数据集中,有一些功能并不总是存在:

HW_GRADE:范围0-100 HW_RESUBMISSION:如果存在,则为0-100

换句话说,如果学生没有重新提交,则该功能不存在。据我所知,scikit学习不喜欢NaN或空白功能。使用插值强制将值放入该特征中是没有意义的。我还可以创建一个二进制变量'HW_RESUBMITTED',如果HW_RESUBMISSION是NaN,它将为0。但实际值,如果存在,也是一个有用的鉴别器。

referenced possible duplicate表示缺少值是一个问题。我同意。实际上,我的问题是要求正确的方法来处理插值会导致错误结果的场景,并且简单地将缺失值设置为固定的“0”也会导致不正确的重用。我提出了一种可行的方法来处理这个问题,并且正在寻找比我更先进的人来评论。

0 个答案:

没有答案