在TfidfVectorizer()中输入文档项频率矩阵?

时间:2018-06-14 16:54:52

标签: python scikit-learn tf-idf tfidfvectorizer

我想出了一个包含来自三个文档的文字包的示例(我正在演示tf-idf如何在给定文档项频率矩阵的情况下工作),并且我想将我的弓形矩阵转换为tf- idf矩阵。我实际上没有文本数据,只是我在我的例子中编写的数字?如何使用它来生成tf-idf输出?我收到错误消息"' numpy.ndarray'对象没有属性' lower'"在最后一行(我假设它是因为fit_transform期待文本数据。是否有可能以某种方式指定或覆盖它?

bow = np.array([[15,0,5,0,20], [20,30,0,25,0], [15,10,10,20,15]])
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(bow)

1 个答案:

答案 0 :(得分:2)

您可以使用TfidfTransformer而不是TfidfVectorizer。

from sklearn.feature_extraction.text import TfidfTransformer
import numpy as np

bow = np.array([[15,0,5,0,20], [20,30,0,25,0], [15,10,10,20,15]])
transformer = TfidfTransformer()
transformer.fit_transform(bow)