我试图了解TF-IDF矩阵的结果。这是我正在使用的代码。
sen1 = TextBlob("This is a sample")
d1 = sen1.words
from sklearn.feature_extraction.text import TfidfVectorizer
tfvectorizer = TfidfVectorizer()
tfidf= TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english', lowercase=False)
tf = tfidf.fit_transform(d1).todense()
请问有人可以帮我为什么我有7列4个单词的语料库吗?行是否代表单词数?
根据我在不同资源中研究的结果,“结果是tf-idf得分的矩阵,每个文档一行,列的数量与数据集中不同单词的数量一样多。”但是我不能根据我在这里获得的结果来验证它。
答案 0 :(得分:0)
我可以复制您的结果。 d1变量为['This','is','a','sample']。 这意味着sklearn将其解释为4个文档,然后使用字符作为单词。
您可以像这样检查。
tf = tfidf.fit(d1)
tf.get_feature_names()
['T','e','h','l','m','p','s']