用于文本分类任务的NLP数据准备和排序

时间:2019-03-04 17:10:22

标签: python nlp dataset text-classification spacy

我在网络上阅读了很多教程以及有关stackoverflow的主题,但是对我来说,一个问题仍然很模糊。如果仅考虑为多标签培训收集数据的阶段,哪种方法(参见下文)会更好,并且两者是否都可接受且有效?

  1. 尝试不惜一切代价寻找“纯”的带有标签的例子。
  2. 每个示例都可以多标签。

例如,我有关于战争,政治,经济学,文化的文章。通常,与经济有关的政治,与政治有关的战争,经济问题可能会出现在文化文章等中。我可以为每个示例严格分配一个主要主题,删除不确定的作品或分配2、3个主题。

我将使用Spacy训练数据,每个主题的数据量约为5万至1万个示例。

对于任何解释和/或相关讨论的链接,我将不胜感激。

1 个答案:

答案 0 :(得分:1)

您可以尝试 OneVsAll / OneVsRest 策略。这将使您能够做到这两者:无需严格分配一个标签就可以准确预测一个类别。

  

也称为“一对多”,此策略在于拟合一个   每个类别的分类器。对于每个分类器,将分类   所有其他课程。除了计算效率   (仅需要n_classes个分类器),这是它的优点之一   方法是它的可解释性。由于每个类别都由   仅一个和一个分类器,就有可能获得有关   通过检查其相应的分类器来分类。这是最   多类别分类的常用策略,很公平   默认选择。

     

此策略也可用于多标签学习,其中   分类器用于预测多个标签,例如,通过拟合   如果样本i具有标签j且单元格[i,j]为1,则在二维矩阵上   否则为0。

链接到文档: https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html