确定多少类可分离性将影响分类结果

时间:2018-09-25 02:36:30

标签: classification supervised-learning

我有一个问题,希望您能为我提供帮助。

我已经进行了几次文本分类(二进制分类和多分类)。我很好奇能否在不做所有工作来实现和使用模型来预测类,计算混淆矩阵,F1得分等的所有工作的情况下提前获得可接受的文本分类结果。换句话说,基于我的<单独使用em>数据确定我的数据是否可以足够分开,以便我可能会获得可接受的分类结果。是的,不同的模型会产生不同的结果,但是暂时搁置模型……

例如,考虑使用训练集进行二进制文本分类,该训练集具有标记为“ A类”和“ B类”的相等数据。如果我要:

  • 删除停用词
  • 规范化文本(词干或词条限制)
  • 收集A类中的所有单个单词
  • 收集B类中的所有单个单词
  • 最后,计算相交的单词数,我应该能够确定每个类别的独特性以及分类器是否可能产生可接受的结果,对吗?

下面,两个类别中的单词之间几乎没有重叠,因此分类器可能会产生可接受的结果。

enter image description here

下面,两个类别中的单词之间有很多重叠,因此分类器可能无法产生可接受的结果。

enter image description here

谢谢。

0 个答案:

没有答案