好的,我知道我的问题很奇怪(我是机器学习的新手),我会尝试更具体。我有一个包含7个类的数据集,各自的频率分别为:211.840,2833.301,35.754,2.774,9.493,17.367和20.510。由于类是不平衡的,我的想法是创建许多不同的欠采样数据集,然后在每个数据集上训练随机森林分类器,最后从所有这些分类器的多数投票得到我的最终预测。我的想法有效吗?我是否忽略了任何重要的观点?
谢谢
答案 0 :(得分:0)
尝试使用SMOTE或其他一些技巧来处理类不平衡问题。
了解随机森林: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
随机森林实际上通过采取子样本来种植许多树,并通过对这些树的投票进行分类。 你不需要再单独做那件事。
尝试使用不同分类器的合奏。 或尝试其他一些提升技术,如ADABOOST算法。