答案 0 :(得分:0)
TFIDF前:
doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0. , 0.70490949, 0. , 0.50154891, 0.50154891],
[0.57615236, 0. , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()
因此,对于主体中的每个文档,您都有一个line / 1d数组,并且该数组中len =主体中的总vocab(可以变得很稀疏)。您要注意的分数取决于您的工作,即在文档中找到最重要的单词,您可能会在该文档中寻找最高的TF-idf。在语料库中最重要的是查看整个数组。如果您试图识别停用词,则可以考虑找到TF-IDF得分最低的X个单词集合。但是,我不建议您首先使用TF-IDF查找停用词,这样可以降低停用词的权重,但是它们仍然经常出现,这可以抵消体重减轻的影响。找到最常用的词然后将其过滤掉可能会更好。您可能想看看您手动生成的任一集合。