我在网络上阅读了很多教程以及有关stackoverflow的主题,但是对我来说,一个问题仍然很模糊。如果仅考虑为多标签培训收集数据的阶段,哪种方法(参见下文)会更好,并且两者是否都可接受且有效?
例如,我有关于战争,政治,经济学,文化的文章。通常,与经济有关的政治,与政治有关的战争,经济问题可能会出现在文化文章等中。我可以为每个示例严格分配一个主要主题,删除不确定的作品或分配2、3个主题。
我将使用Spacy训练数据,每个主题的数据量约为5万至1万个示例。
对于任何解释和/或相关讨论的链接,我将不胜感激。
答案 0 :(得分:1)
您可以尝试 OneVsAll / OneVsRest 策略。这将使您能够做到这两者:无需严格分配一个标签就可以准确预测一个类别。
也称为“一对多”,此策略在于拟合一个 每个类别的分类器。对于每个分类器,将分类 所有其他课程。除了计算效率 (仅需要n_classes个分类器),这是它的优点之一 方法是它的可解释性。由于每个类别都由 仅一个和一个分类器,就有可能获得有关 通过检查其相应的分类器来分类。这是最 多类别分类的常用策略,很公平 默认选择。
此策略也可用于多标签学习,其中 分类器用于预测多个标签,例如,通过拟合 如果样本i具有标签j且单元格[i,j]为1,则在二维矩阵上 否则为0。
链接到文档: https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html