我正在训练一个简单的文本分类模型(目前使用scikit-learn)。要使用词汇表将我的文档样本转换为字数统计向量,我使用
CountVectorizer(vocabulary=myDictionaryWords).fit_transform(myDocumentsAsArrays)
来自sklearn.feature_extraction.text
。
这很好用,我随后可以将这个字数矢量作为特征向量训练我的分类器。但我不知道的是如何将这些字数向量逆变换为原始文档。 CountVectorizer
确实有一个函数inverse_transform(X)
,但这只会返回唯一的非零令牌。
据我所知,CountVectorizer没有任何映射回原始文档的实现。
任何人都知道如何从其计数向量化表示中恢复原始序列的标记?是否可能有Tensorflow或任何其他模块?
答案 0 :(得分:2)
CountVectorizer“有损”,即对于文档:
This is the amazing string in amazing program
,它只会存储文档中的字数(即字符串 - > 1,惊人 - > 2等),但会丢失位置信息。
因此,通过反转它,您可以创建具有相同重复次数的相同单词的文档,但无法回溯它们在文档中的顺序。