分类器准确性 - 相信太好

时间:2017-01-11 15:10:23

标签: python pca gensim text-classification doc2vec

问题陈述 - 对产品评论进行分类

课程 - 旅游,酒店,汽车,电子,食品,电影

我正在用着名的Text Classification问题解决这个问题。使用Doc2Vec中的gensim默认模型准备功能集,并使用Logistic Regression中的sklearn oneVSrest进行分类。

对于每个课程,我都会向Doc2Vec提供10000条评论。(我正在关注此Doc2Vec教程)。通过这种方式,模型学习每个句子的向量。从得到的向量中,每个类别的80%被提供给LogisticRegression用于训练,20%用于测试。分类器的准确率为98%。但对于看不见的数据,准确率仅为17%。当在2D图中绘制时,所有句子向量的PCA也导致一个密集簇。我可以从图中得出的结论是,数据是不可分割的,但分类器的准确度是如何达到98%的?另外,为什么在看不见的数据上准确度非常低?如何评估/验证我的结果。

0 个答案:

没有答案