我需要一个帮助来计算DataFrame中存在的一组字符串的tf-idf。在列中有文档,在行中有提取的标记/ n-gram。一个n-gram可能只存在于一个文档中,也可能存在于多个文档中,但是在特定文档中只能存在1个计数。 我想根据提供的DataFrame计算所有n元语法的tf-idf。我已经检查了TfidfVectorizer(),但是由于它返回列名而不是包含的单词的tf-idf,所以我一直出错。
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(Test)
输出为:
['document1', 'document2', 'document3', 'document4', 'document5']
我的DataFrame具有以下格式: