如何根据TFIDF训练的数据集转换新的分类进行分类

时间:2017-04-28 01:39:38

标签: python-3.x

我有三个分类文本文件的语料库: 1- i计算每个类别的向量的tfidf 2-分割数据集为2部分训练和测试集 3-使用NaiveBayesClassifier.train

训练tfidf数据

然后我想对新文档进行分类,它应该被转换为训练数据的驯服形式>>>所以我应该把它矢量化到它的' TFIDF 1-i对它进行了标记 2 - 计算TF项(新文档中出现的单词数除以整个新文档中的单词数) 3-idf术语(log(所有文件的数量(在这种情况下是一个因为它只是我想要分类的一个文件)除以包含该单词的文件数量(在这种情况下一个因为它只是一个文件我想分类)) 4-所以新文件中所有向量的idf项都是zerooo -----我将公式改为IDF = l +(log(N / Ni))以避免零值 5 =通过TF * IDF计算新文档中每个向量的tfidf值 5 - 然后使用NaiveBayesClassifier.classify

对新文档进行分类

但分类值不正确,,,请任何人帮助我

0 个答案:

没有答案