更一般的问题,但因为我使用的是R - >标签
我的训练数据集是15,000个条目,大约20个我想用于正数据集 - >建立svm。我想使用剩余的重采样数据集作为我的负数据集,但我想知道,与负数据集采用相同的大小(大约20)可能更好,否则它是高度imbalanced?在1000轮重新采样之后,是否有一种简单的方法可以在R中使用分类器(基于集合)? (或者甚至使用e1071
包)
后续问题:之后我想计算每个预测的分数,是否可以将概率乘以100?
THX
答案 0 :(得分:0)
您可以尝试“类权重”方法,其中较小的类获得更多的权重,从而花费更多的成本来对正面标记类进行错误分类。