一个学期的TF-IDF分数是否合并在一起?

时间:2019-03-07 19:38:24

标签: nlp tf-idf stop-words

我正在阅读有关TF-IDF的信息,以便可以从语料库中滤除常见词。在我看来,您对每个单词,文档对都获得了TF-IDF分数。

您关注哪个得分?您是否将所有文档的分数合并为一个单词?

enter image description here

1 个答案:

答案 0 :(得分:0)

TFIDF前:

doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0.        , 0.70490949, 0.        , 0.50154891, 0.50154891],
   [0.57615236, 0.        , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()

因此,对于主体中的每个文档,您都有一个line / 1d数组,并且该数组中len =主体中的总vocab(可以变得很稀疏)。您要注意的分数取决于您的工作,即在文档中找到最重要的单词,您可能会在该文档中寻找最高的TF-idf。在语料库中最重要的是查看整个数组。如果您试图识别停用词,则可以考虑找到TF-IDF得分最低的X个单词集合。但是,我不建议您首先使用TF-IDF查找停用词,这样可以降低停用词的权重,但是它们仍然经常出现,这可以抵消体重减轻的影响。找到最常用的词然后将其过滤掉可能会更好。您可能想看看您手动生成的任一集合。