如何使用scikit找到关于文档的术语的TF-IDF

时间:2017-07-18 16:18:28

标签: python scikit-learn tf-idf

我正在尝试将scikit应用于自然语言处理,我首先阅读一些教程。我找到了这个http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/,它解释了如何从一组文档中获取tfidf分数。

但是我有一个问题,TF-IDF应该依赖于一个术语,该术语的文档以及所有待分析文档的集合。

所以,例如。在两个文件A和B的集合中,如果我们使用文档A计算TF-IDF而不是相同的术语,但是通过分析来自的术语频率,则术语' horse '应获得不同的TF-IDF分数文件B.

如何使用scikit计算特定文档的术语TF-IDF?

1 个答案:

答案 0 :(得分:0)

在教程中你提到过TF-IDF计算如下:

tfidf_matrix =  tf.fit_transform(corpus)

引用:"如果我们看一下tfidf_matrix,我们预计它会是一个208 x 498254 矩阵 - 每一行,每个短语的 "。 因此,对于此矩阵中的每个剧集(文本),每个短语 的TF-IDF是不同的 。正如你所料。

矩阵元素tfidf_matrix [document,phrase]是语料库特定文档(所有文档)中每个特定短语的TF-IDF值。