sampsize对randomForest中不平衡数据的权重响应

时间:2014-03-04 20:07:26

标签: r machine-learning svm random-forest adaboost

我是机器学习和R的新手。

我尝试使用R来适应一些模型,包括树木,增强树木,随机森林,ada增强,svm和逻辑回归。

在我的情况下,在训练数据中发生罕见事件(1级)的概率是0.0075。

在树木和加速树木训练中,我在模型中添加了一个权重参数,即权重等级0为1,等级1为sqrt(1 / 0.0075)。这是一个正确的方法吗?

我对随机森林有一些问题。我搜索使用sampsize来处理这样的不平衡数据。

但是,我不太确定如何给每个班级适当的重量。

我看了here,并建议降低失衡率。我该如何选择合适的?

另外,我不知道如何在ada增强和逻辑回归中包含权重。

0 个答案:

没有答案