问题陈述 - 对产品评论进行分类
课程 - 旅游,酒店,汽车,电子,食品,电影
我正在用着名的Text Classification
问题解决这个问题。使用Doc2Vec
中的gensim
默认模型准备功能集,并使用Logistic Regression
中的sklearn
oneVSrest进行分类。
对于每个课程,我都会向Doc2Vec
提供10000条评论。(我正在关注此Doc2Vec教程)。通过这种方式,模型学习每个句子的向量。从得到的向量中,每个类别的80%被提供给LogisticRegression
用于训练,20%用于测试。分类器的准确率为98%。但对于看不见的数据,准确率仅为17%。当在2D图中绘制时,所有句子向量的PCA
也导致一个密集簇。我可以从图中得出的结论是,数据是不可分割的,但分类器的准确度是如何达到98%的?另外,为什么在看不见的数据上准确度非常低?如何评估/验证我的结果。