为什么在使用tfidfVectorizer()提取特征时,分类器在测试集上的表现优于验证集? (平均准确度提高7%)

时间:2019-01-05 11:53:01

标签: tfidfvectorizer

我感谢那些会阅读我的帖子并希望能为您提供帮助的人。

我已经使用TfidfVectorizer()将TF-IDF功能的字典拟合到训练集上,并使用CountVectorizer()将基本的绝对计数向量拟合在一起,以便确定哪种配置更有效。 然后将原始训练分为training_2和验证集。 因此,在构建字典时会考虑到验证中的所有单词。 然后,我根据前面提到的特征字典将测试集文档转换为向量。因此,新词可能已被丢弃(对分类没有影响),因为在创建字典时没有遇到过。 我希望在验证集上有更好的性能,因为它不包含新词,但是在测试集上,例如使用不同的分类器,使用不同的分割种子,使用不同的矢量评分(绝对计数和tf-idf),我可以获得更好的性能)。

(根据我的观点,可能的解释是,在这种情况下,与训练集相比,测试集由更多的单词组成,这些单词具有特定类别的特殊含义,因此在不同的类别中不会重复。存在,因为向量稀疏仅与一类相关,说明了验证和测试集之间的准确性差距。)

有人能证明这些结果吗?

0 个答案:

没有答案