如何使用FastText处理不平衡的标签数据?

时间:2018-06-10 08:02:05

标签: nlp word2vec fasttext

在FastText中,我有不平衡的标签。处理它的最佳方法是什么?

2 个答案:

答案 0 :(得分:1)

Fasttext似乎可以很好地处理不平衡的数据。 根据{{​​3}}

  

还请注意,这种损失被认为是针对不平衡的班级,即某些班级比其他班级更频繁。

答案 1 :(得分:0)

在我们的例子中,我们有一个非常偏斜的数据集,其中有 200+个类 20%个类,其中包含所有数据的 80%

在我们的数据中,即使存在这种高度偏斜的数据,我们对类别内的文本也有一个清晰的定义

示例: 多数班的文本:“ 嘿,我需要一台计算机和一个鼠标来打开 Internet 并发布一个 堆栈 溢出

中编程答案

少数民族课程的文本:“ 嘿,请给我以下物品:鸡蛋生菜洋葱西红柿牛奶小麦

由于FastText可以处理WordNGrams和层次结构拆分(如果您在上述情况下具有定义得很好的类别),由于算法的性质,不平衡不是问题。

参考:Bag of Tricks for Efficient Text Classification-Armand Joulin,Edouard Grave,Piotr Bojanowski,Tomas Mikolov