熊猫数据框上的TfIdf

时间:2018-11-25 09:31:05

标签: python-3.x pandas numpy scikit-learn tfidfvectorizer

我正在尝试做一个文本分类器,我想在我的数据集上应用tfidf,它由20x20的矩阵组成。每列上有20个文档(每个作者50.000个单词)。使用熊猫的CSV,然后我试图申请 TfidfVectorizer在我的数据上。问题是它很慢,我想知道是否可以更快地完成。这是我的方法:

results = np.array(400)
for author in authors:
    results = np.append(results, list(data_set[author]))

tf_idf = TfidfVectorizer(sublinear_tf=True, norm='l2', min_df=0.3, max_df=0.75, encoding='latin-1', ngram_range=(1, 2), stop_words='english')
features = tf_idf.fit_transform(results)

我要遍历每一列并将其附加到结果上,我得到一个(400,)形状的numpy数组(20个作者x 20个文档每个= 400)。完成需要一分钟以上的时间(大部分时间花费在fit_transform方法中。谢谢!

0 个答案:

没有答案