在FastText中,我有不平衡的标签。处理它的最佳方法是什么?
答案 0 :(得分:1)
Fasttext似乎可以很好地处理不平衡的数据。 根据{{3}}
还请注意,这种损失被认为是针对不平衡的班级,即某些班级比其他班级更频繁。
答案 1 :(得分:0)
在我们的例子中,我们有一个非常偏斜的数据集,其中有 200+个类和 20%个类,其中包含所有数据的 80% 。
在我们的数据中,即使存在这种高度偏斜的数据,我们对类别内的文本也有一个清晰的定义。
示例: 多数班的文本:“ 嘿,我需要一台计算机和一个鼠标来打开 Internet 并发布一个 堆栈 溢出 ”
中编程答案少数民族课程的文本:“ 嘿,请给我以下物品:鸡蛋,生菜,洋葱, 西红柿,牛奶和小麦?”
由于FastText可以处理WordNGrams和层次结构拆分(如果您在上述情况下具有定义得很好的类别),由于算法的性质,不平衡不是问题。
参考:Bag of Tricks for Efficient Text Classification-Armand Joulin,Edouard Grave,Piotr Bojanowski,Tomas Mikolov