用检查的文档列计算DataFrame中的TF-IDF

时间:2019-10-15 22:26:07

标签: python tf-idf tfidfvectorizer

我需要一个帮助来计算DataFrame中存在的一组字符串的tf-idf。在列中有文档,在行中有提取的标记/ n-gram。一个n-gram可能只存在于一个文档中,也可能存在于多个文档中,但是在特定文档中只能存在1个计数。 我想根据提供的DataFrame计算所有n元语法的tf-idf。我已经检查了TfidfVectorizer(),但是由于它返回列名而不是包含的单词的tf-idf,所以我一直出错。

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

X = vectorizer.fit_transform(Test)

输出为: ['document1', 'document2', 'document3', 'document4', 'document5']

我的DataFrame具有以下格式:

format

0 个答案:

没有答案