应用错误收集

问题陈述 - 对产品评论进行分类

课程 - 旅游，酒店，汽车，电子，食品，电影

我正在用着名的Text Classification问题解决这个问题。使用Doc2Vec中的gensim默认模型准备功能集，并使用Logistic Regression中的sklearn oneVSrest进行分类。

对于每个课程，我都会向Doc2Vec提供10000条评论。（我正在关注此Doc2Vec教程）。通过这种方式，模型学习每个句子的向量。从得到的向量中，每个类别的80％被提供给LogisticRegression用于训练，20％用于测试。分类器的准确率为98％。但对于看不见的数据，准确率仅为17％。当在2D图中绘制时，所有句子向量的PCA也导致一个密集簇。我可以从图中得出的结论是，数据是不可分割的，但分类器的准确度是如何达到98％的？另外，为什么在看不见的数据上准确度非常低？如何评估/验证我的结果。

分类器准确性 - 相信太好

0 个答案: