将字数统计向量转换为原始文档

时间:2017-07-13 09:25:09

标签: tensorflow scikit-learn nlp tf-idf countvectorizer

我正在训练一个简单的文本分类模型(目前使用scikit-learn)。要使用词汇表将我的文档样本转换为字数统计向量,我使用

CountVectorizer(vocabulary=myDictionaryWords).fit_transform(myDocumentsAsArrays)

来自sklearn.feature_extraction.text

这很好用,我随后可以将这个字数矢量作为特征向量训练我的分类器。但我不知道的是如何将这些字数向量逆变换为原始文档。 CountVectorizer确实有一个函数inverse_transform(X),但这只会返回唯一的非零令牌。

据我所知,CountVectorizer没有任何映射回原始文档的实现。

任何人都知道如何从其计数向量化表示中恢复原始序列的标记?是否可能有Tensorflow或任何其他模块?

1 个答案:

答案 0 :(得分:2)

CountVectorizer“有损”,即对于文档: This is the amazing string in amazing program,它只会存储文档中的字数(即字符串 - > 1,惊人 - > 2等),但会丢失位置信息。 因此,通过反转它,您可以创建具有相同重复次数的相同单词的文档,但无法回溯它们在文档中的顺序。