列在tfidf矩阵中代表什么?

时间:2019-03-09 09:01:40

标签: python tf-idf tfidfvectorizer

我试图了解TF-IDF矩阵的结果。这是我正在使用的代码。

sen1 = TextBlob("This is a sample")
d1 = sen1.words
from sklearn.feature_extraction.text import TfidfVectorizer
tfvectorizer = TfidfVectorizer()
tfidf= TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english', lowercase=False)    
tf = tfidf.fit_transform(d1).todense()

因此,我试图理解由此获得的tf矩阵。以下是tf矩阵的图片。enter image description here

请问有人可以帮我为什么我有7列4个单词的语料库吗?行是否代表单词数?

根据我在不同资源中研究的结果,“结果是tf-idf得分的矩阵,每个文档一行,列的数量与数据集中不同单词的数量一样多。”但是我不能根据我在这里获得的结果来验证它。

1 个答案:

答案 0 :(得分:0)

我可以复制您的结果。 d1变量为['This','is','a','sample']。 这意味着sklearn将其解释为4个文档,然后使用字符作为单词。

您可以像这样检查。

tf = tfidf.fit(d1)

tf.get_feature_names()

['T','e','h','l','m','p','s']