如何使用 tfidf 矢量化器自动进行文本矢量化?

时间:2021-05-25 11:24:56

标签: python for-loop tf-idf

我有一个训练数据框和测试数据框。训练数据框只有文本列并且被清理,测试数据框只有一列。

train_data 
test_data

我已经训练了一个 tfidf 向量化器,所以我要放弃它。

joblib.dump(vectorizer_skills, 'vectorizer_skills.pkl')

转换时,每一列训练数据将使用相同的测试数据。

container_1 = dict()
container_2 = dict()

正在创建容器,以便训练向量化数据可以存储在 container_1 中,测试向量化可以存储在 container_2 中,并带有各自的列名。

for item in train_data.columns:
container_1[item] = vectorizer_skills.transform(train_data[item])
container_2[item] = vectorizer_skills.transform(test_data['Cleaned_Column'])

这是行不通的,如果我逐一进行矢量化,那么它可以工作,但是我在训练数据中有 30 多个文本列,这将花费很多时间。如何解决这个问题。

0 个答案:

没有答案
相关问题