具有NaN值的随机森林

时间:2016-12-02 16:46:08

标签: r matlab cart random-forest

如果我在某些预测变量的列中有NaN值,如何使用randomForest库在R中运行随机目录林。

rf <- randomForest(class ~ maxf + minf + d + startf + endf + f1.4 + f1.2 + f3.4 + minslope + maxslope+ bslope + eslope + avgsl + noex + noip, data=whistles_nov, importance=TRUE)

给出了这个错误:

Error in na.fail.default(list(class = c(6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L,  : 
missing values in object

无论NaN值如何,matlab中的TreeBagger函数都能正常工作吗?

1 个答案:

答案 0 :(得分:0)

你应该'阅读免费手册'(link)当你输入“?randomForest”时,r / rstudio中也应该有关于“randomForest”关键字“17下面显示的相同材料。” p>

enter image description here

请注意它说“na.action”。那里的设置应该驱使它以更理想的方式处理“NA”值。默认值也突出显示为“na.fail”。

第21页给出的一个例子使用“na.omit”。我怀疑这省略了带有na值的行。

您也可以考虑使用缺失值插补来替换非NA值,但您必须确定这是否正确。 (link

从这个(link)看来,MatLab默认为“na.omit”的某些有效变化。