我想使用Vowpal Wabbit执行Logistic回归。我如何处理不平衡的类(例如1000/50000)?我知道我可以使用重要性加权,但我不确定这是否是这种情况下的最佳选择。还有像SMOTE这样的算法,但我不知道如何在Vowpal Wabbit中使用它们。
答案 0 :(得分:0)
是的,重要性加权是Vowpal Wabbit中不平衡类的解决方案。最重要的问题是您的最终评估标准是什么。它是RO曲线下面积(又名ROC,AUC)?请参阅Calculating AUC when using Vowpal Wabbit和How to perform logistic regression using vowpal wabbit on very imbalanced dataset(此处请参阅两个答案)。
SMOTE似乎是对少数群体进行过度抽样和对多数群体进行欠抽样的组合,其中过采样是通过从例如以下方式生成合成示例来完成的。 5个最近邻居的例子,随机混合在一起。此方法未在Vowpal Wabbit中实现,并且与在线学习不兼容(因为最近的邻居)。它可能以某种方式以在线方式近似。