python-3.x - 如何根据TFIDF训练的数据集转换新的分类进行分类

我有三个分类文本文件的语料库： 1- i计算每个类别的向量的tfidf 2-分割数据集为2部分训练和测试集 3-使用NaiveBayesClassifier.train

训练tfidf数据

然后我想对新文档进行分类，它应该被转换为训练数据的驯服形式＆gt;＆gt;＆gt;所以我应该把它矢量化到它的＆＃39; TFIDF 1-i对它进行了标记 2 - 计算TF项（新文档中出现的单词数除以整个新文档中的单词数） 3-idf术语（log（所有文件的数量（在这种情况下是一个因为它只是我想要分类的一个文件）除以包含该单词的文件数量（在这种情况下一个因为它只是一个文件我想分类）） 4-所以新文件中所有向量的idf项都是zerooo -----我将公式改为IDF = l +（log（N / Ni））以避免零值 5 =通过TF * IDF计算新文档中每个向量的tfidf值 5 - 然后使用NaiveBayesClassifier.classify

对新文档进行分类

但分类值不正确,,,请任何人帮助我

如何根据TFIDF训练的数据集转换新的分类进行分类

0 个答案: