我是机器学习和R的新手。
我尝试使用R来适应一些模型,包括树木,增强树木,随机森林,ada增强,svm和逻辑回归。
在我的情况下,在训练数据中发生罕见事件(1级)的概率是0.0075。
在树木和加速树木训练中,我在模型中添加了一个权重参数,即权重等级0为1,等级1为sqrt(1 / 0.0075)。这是一个正确的方法吗?
我对随机森林有一些问题。我搜索使用sampsize来处理这样的不平衡数据。
但是,我不太确定如何给每个班级适当的重量。
我看了here,并建议降低失衡率。我该如何选择合适的?
另外,我不知道如何在ada增强和逻辑回归中包含权重。