应用错误收集

将字数统计向量转换为原始文档

时间：2017-07-13 09:25:09

标签： tensorflow scikit-learn nlp tf-idf countvectorizer

我正在训练一个简单的文本分类模型（目前使用scikit-learn）。要使用词汇表将我的文档样本转换为字数统计向量，我使用

CountVectorizer(vocabulary=myDictionaryWords).fit_transform(myDocumentsAsArrays)

来自sklearn.feature_extraction.text。

这很好用，我随后可以将这个字数矢量作为特征向量训练我的分类器。但我不知道的是如何将这些字数向量逆变换为原始文档。 CountVectorizer确实有一个函数inverse_transform(X)，但这只会返回唯一的非零令牌。

据我所知，CountVectorizer没有任何映射回原始文档的实现。

任何人都知道如何从其计数向量化表示中恢复原始序列的标记？是否可能有Tensorflow或任何其他模块？

1 个答案:

答案 0 :(得分：2)

CountVectorizer“有损”，即对于文档： This is the amazing string in amazing program，它只会存储文档中的字数（即字符串 - > 1，惊人 - > 2等），但会丢失位置信息。因此，通过反转它，您可以创建具有相同重复次数的相同单词的文档，但无法回溯它们在文档中的顺序。