如何使用具有观察权重的R randomForest
包?我知道这个包里没有这样的选择。我有两个问题:
使用randomForest
包有没有解决此问题的方法?此刻,我从数据中抽取样本,其中权重为概率,因此我至少可以模拟它:
m = dim(data)[1]
sample(data, m, replace=TRUE, prob=weights)
是否有其他(更好的)解决方案?
是否有randomForest
包的替代品。我发现了party
包(cforest),但它在内存管理方面很糟糕(或者我不能像使用randomForest
包一样使用它)。我有大约200k观测值和30-40个变量。
编辑:
很抱歉没有澄清细节。我正在使用randomForest
包来回归问题(不是分类)。这是一个时间序列,每个观察都有它的重量。稍后,此权重用于确定测试观察的模型性能。 y变量是连续的。
答案 0 :(得分:2)
randomForest
确实有" classwt"应该允许您考虑差分采样概率或甚至差异成本的参数。不可否认,它会被回归忽略或许你应该解释为什么你需要使用加权以及你正在使用的y变量。
答案 1 :(得分:1)
我正在寻找与随机森林中的Pawel相同的选项。我想出了包裹"游侠"在R中将它结合到功能" ranger" (通过参数" case.weights")。
2016年6月发布的套餐非常年轻。
最佳,