查找Tf-Idf使用scikit-learn从文档集中仅选择单词的分数

时间:2016-03-16 16:38:52

标签: python scipy nlp scikit-learn tf-idf

我有一组文件(存储为.txt个文件)。我还有一些选定单词的python字典。我想只为这些单词分配tf-idf分数,而不是从文档集中分配所有单词。如何使用scikit-learn或任何其他库来完成?

我已经提到了这个blog post,但它提供了大量的完整词汇。

1 个答案:

答案 0 :(得分:1)

您可以使用CountVectorizer执行此操作,TfidfTrasnformer将文档扫描为文本并转换为术语 - 文档矩阵,并在矩阵上使用TfidfVectorizer

这两个步骤也可以与sklearn.feature_extraction.text一起组合完成。

这些位于TruncatedSVD模块[link]。

两个进程都将返回相同的稀疏矩阵表示,我假设您可能会通过.router-link-active进行SVD​​变换以获得更小的密集矩阵。

您当然也可以自己动手,这需要保留两张地图,每张文件一张,一张整体,您可以在这里计算条款。这就是他们在幕后操作的方式。

This page有一些不错的例子。