应用错误收集

SMOTE后产生的结果是否可靠？

时间：2015-03-10 07:29:25

标签： machine-learning weka

我有一个倾斜的数据集，其中有Twitter推文和与之相关的情感。积极：负面情绪的比例约为1：4（训练集）。当我在Weka（没有SOMTE）上运行训练集时，结果并不令人满意。所以我用SMOTE来平衡课程。之后我得到的结果要好得多。我使用Libsvm进行分类。

这种SMOTE技术产生的模型有多可靠？我们是否可以将SMOTE用于此类不平衡数据集？我是ML和weka的新手，所以对这些事情不太了解。

1 个答案:

答案 0 :(得分：1)

这取决于。过采样和欠采样有许多优点和缺点，无论是随机的还是合成的。应通过比较训练和交叉验证或测试错误来检查结果。还可以通过绘制y轴错误率和x轴数据大小来学习曲线。这样可以检测到过于乐观的结果，泛化能力等。有时我们可以因为过度拟合而获得好成绩。我使用过SMOTE并取得了不错的效果。但后来我不得不检查我提到的过程，看看它有多好。对于类不平衡问题，您可能尝试的另一件事是保持数据集不变，然后应用成本敏感的学习器，这将根据一些权重对FP和FN进行惩罚。您还可以对不平衡数据集应用常规算法，然后应用成本敏感评估，如成本曲线。如果给出50-50平衡数据集，该曲线可以说明您的模型将如何执行。