我正在寻找可以处理NA的R包或机器学习模型/ algos,例如randomForest
,glmnet
,gbdt
等,而不是忽略行或列有NA的任何实例。我不打算估算。有什么建议吗?
答案 0 :(得分:4)
CART算法相当无缝地处理NA( rpart 包)。然后,您可以随时使用rpart
转到bagged trees,可能是通过 ipred 包。
我听说多变量自适应回归样条( mda 包中的mars
)可以很好地处理丢失的数据,尽管我没有多少经验。
此外,可以更改k个最近邻模型(我认为更普遍的内核方法)以相当简单的方式处理缺失值,但实现可能不会开箱即用。但据推测,只需调整距离度量就可以考虑成对完整的情况。我不熟悉特定的R套件,它们比香草模型更具特色。