我正在尝试做一个文本分类器,我想在我的数据集上应用tfidf,它由20x20的矩阵组成。每列上有20个文档(每个作者50.000个单词)。使用熊猫的CSV,然后我试图申请 TfidfVectorizer在我的数据上。问题是它很慢,我想知道是否可以更快地完成。这是我的方法:
results = np.array(400)
for author in authors:
results = np.append(results, list(data_set[author]))
tf_idf = TfidfVectorizer(sublinear_tf=True, norm='l2', min_df=0.3, max_df=0.75, encoding='latin-1', ngram_range=(1, 2), stop_words='english')
features = tf_idf.fit_transform(results)
我要遍历每一列并将其附加到结果上,我得到一个(400,)形状的numpy数组(20个作者x 20个文档每个= 400)。完成需要一分钟以上的时间(大部分时间花费在fit_transform方法中。谢谢!