我有一组文件(存储为.txt
个文件)。我还有一些选定单词的python字典。我想只为这些单词分配tf-idf分数,而不是从文档集中分配所有单词。如何使用scikit-learn
或任何其他库来完成?
我已经提到了这个blog post,但它提供了大量的完整词汇。
答案 0 :(得分:1)
您可以使用CountVectorizer
执行此操作,TfidfTrasnformer
将文档扫描为文本并转换为术语 - 文档矩阵,并在矩阵上使用TfidfVectorizer
。
这两个步骤也可以与sklearn.feature_extraction.text
一起组合完成。
这些位于TruncatedSVD
模块[link]。
两个进程都将返回相同的稀疏矩阵表示,我假设您可能会通过.router-link-active
进行SVD变换以获得更小的密集矩阵。
您当然也可以自己动手,这需要保留两张地图,每张文件一张,一张整体,您可以在这里计算条款。这就是他们在幕后操作的方式。
This page有一些不错的例子。