应用错误收集

我需要一个帮助来计算DataFrame中存在的一组字符串的tf-idf。在列中有文档，在行中有提取的标记/ n-gram。一个n-gram可能只存在于一个文档中，也可能存在于多个文档中，但是在特定文档中只能存在1个计数。我想根据提供的DataFrame计算所有n元语法的tf-idf。我已经检查了TfidfVectorizer（），但是由于它返回列名而不是包含的单词的tf-idf，所以我一直出错。

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

X = vectorizer.fit_transform(Test)

输出为： ['document1', 'document2', 'document3', 'document4', 'document5']

我的DataFrame具有以下格式：

format

用检查的文档列计算DataFrame中的TF-IDF

0 个答案: