Question

我正在阅读有关TF-IDF的信息，以便可以从语料库中滤除常见词。在我看来，您对每个单词，文档对都获得了TF-IDF分数。

您关注哪个得分？您是否将所有文档的分数合并为一个单词？

Answer 1

TFIDF前：

doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0.        , 0.70490949, 0.        , 0.50154891, 0.50154891],
   [0.57615236, 0.        , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()

因此，对于主体中的每个文档，您都有一个line / 1d数组，并且该数组中len =主体中的总vocab（可以变得很稀疏）。您要注意的分数取决于您的工作，即在文档中找到最重要的单词，您可能会在该文档中寻找最高的TF-idf。在语料库中最重要的是查看整个数组。如果您试图识别停用词，则可以考虑找到TF-IDF得分最低的X个单词集合。但是，我不建议您首先使用TF-IDF查找停用词，这样可以降低停用词的权重，但是它们仍然经常出现，这可以抵消体重减轻的影响。找到最常用的词然后将其过滤掉可能会更好。您可能想看看您手动生成的任一集合。

一个学期的TF-IDF分数是否合并在一起？

1 个答案: