应用错误收集

为什么在使用tfidfVectorizer（）提取特征时，分类器在测试集上的表现优于验证集？（平均准确度提高7％）

时间：2019-01-05 11:53:01

标签： tfidfvectorizer

我感谢那些会阅读我的帖子并希望能为您提供帮助的人。

我已经使用TfidfVectorizer（）将TF-IDF功能的字典拟合到训练集上，并使用CountVectorizer（）将基本的绝对计数向量拟合在一起，以便确定哪种配置更有效。然后将原始训练分为training_2和验证集。因此，在构建字典时会考虑到验证中的所有单词。然后，我根据前面提到的特征字典将测试集文档转换为向量。因此，新词可能已被丢弃（对分类没有影响），因为在创建字典时没有遇到过。我希望在验证集上有更好的性能，因为它不包含新词，但是在测试集上，例如使用不同的分类器，使用不同的分割种子，使用不同的矢量评分（绝对计数和tf-idf），我可以获得更好的性能）。

（根据我的观点，可能的解释是，在这种情况下，与训练集相比，测试集由更多的单词组成，这些单词具有特定类别的特殊含义，因此在不同的类别中不会重复。存在，因为向量稀疏仅与一类相关，说明了验证和测试集之间的准确性差距。）

有人能证明这些结果吗？

0 个答案:

没有答案