我有一个倾斜的数据集,其中有Twitter推文和与之相关的情感。积极:负面情绪的比例约为1:4(训练集)。当我在Weka(没有SOMTE)上运行训练集时,结果并不令人满意。所以我用SMOTE来平衡课程。之后我得到的结果要好得多。 我使用Libsvm进行分类。
这种SMOTE技术产生的模型有多可靠? 我们是否可以将SMOTE用于此类不平衡数据集? 我是ML和weka的新手,所以对这些事情不太了解。
答案 0 :(得分:1)
这取决于。过采样和欠采样有许多优点和缺点,无论是随机的还是合成的。应通过比较训练和交叉验证或测试错误来检查结果。还可以通过绘制y轴错误率和x轴数据大小来学习曲线。这样可以检测到过于乐观的结果,泛化能力等。有时我们可以因为过度拟合而获得好成绩。我使用过SMOTE并取得了不错的效果。但后来我不得不检查我提到的过程,看看它有多好。对于类不平衡问题,您可能尝试的另一件事是保持数据集不变,然后应用成本敏感的学习器,这将根据一些权重对FP和FN进行惩罚。您还可以对不平衡数据集应用常规算法,然后应用成本敏感评估,如成本曲线。如果给出50-50平衡数据集,该曲线可以说明您的模型将如何执行。