当使用随机森林算法进行欠采样时,多数投票预测是否有效?

时间:2018-01-08 10:55:55

标签: machine-learning random-forest

好的,我知道我的问题很奇怪(我是机器学习的新手),我会尝试更具体。我有一个包含7个类的数据集,各自的频率分别为:211.840,2833.301,35.754,2.774,9.493,17.367和20.510。由于类是不平衡的,我的想法是创建许多不同的欠采样数据集,然后在每个数据集上训练随机森林分类器,最后从所有这些分类器的多数投票得到我的最终预测。我的想法有效吗?我是否忽略了任何重要的观点?

谢谢

1 个答案:

答案 0 :(得分:0)

尝试使用SMOTE或其他一些技巧来处理类不平衡问题。

了解随机森林: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

随机森林实际上通过采取子样本来种植许多树,并通过对这些树的投票进行分类。 你不需要再单独做那件事。

尝试使用不同分类器的合奏。 或尝试其他一些提升技术,如ADABOOST算法。