Question

我试图了解TF-IDF矩阵的结果。这是我正在使用的代码。

sen1 = TextBlob("This is a sample")
d1 = sen1.words
from sklearn.feature_extraction.text import TfidfVectorizer
tfvectorizer = TfidfVectorizer()
tfidf= TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english', lowercase=False)    
tf = tfidf.fit_transform(d1).todense()

因此，我试图理解由此获得的tf矩阵。以下是tf矩阵的图片。

请问有人可以帮我为什么我有7列4个单词的语料库吗？行是否代表单词数？

根据我在不同资源中研究的结果，“结果是tf-idf得分的矩阵，每个文档一行，列的数量与数据集中不同单词的数量一样多。”但是我不能根据我在这里获得的结果来验证它。

Answer 1

我可以复制您的结果。 d1变量为['This'，'is'，'a'，'sample']。这意味着sklearn将其解释为4个文档，然后使用字符作为单词。

您可以像这样检查。

tf = tfidf.fit（d1）

tf.get_feature_names（）

['T'，'e'，'h'，'l'，'m'，'p'，'s']

列在tfidf矩阵中代表什么？

1 个答案: