我有一个问题,希望您能为我提供帮助。
我已经进行了几次文本分类(二进制分类和多分类)。我很好奇能否在不做所有工作来实现和使用模型来预测类,计算混淆矩阵,F1得分等的所有工作的情况下提前获得可接受的文本分类结果。换句话说,基于我的<单独使用em>数据确定我的数据是否可以足够分开,以便我可能会获得可接受的分类结果。是的,不同的模型会产生不同的结果,但是暂时搁置模型……
例如,考虑使用训练集进行二进制文本分类,该训练集具有标记为“ A类”和“ B类”的相等数据。如果我要:
下面,两个类别中的单词之间几乎没有重叠,因此分类器可能会产生可接受的结果。
下面,两个类别中的单词之间有很多重叠,因此分类器可能无法产生可接受的结果。
谢谢。