Question

我有一个训练数据框和测试数据框。训练数据框只有文本列并且被清理，测试数据框只有一列。

train_data 
test_data

我已经训练了一个 tfidf 向量化器，所以我要放弃它。

joblib.dump(vectorizer_skills, 'vectorizer_skills.pkl')

转换时，每一列训练数据将使用相同的测试数据。

container_1 = dict()
container_2 = dict()

正在创建容器，以便训练向量化数据可以存储在 container_1 中，测试向量化可以存储在 container_2 中，并带有各自的列名。

for item in train_data.columns:
container_1[item] = vectorizer_skills.transform(train_data[item])
container_2[item] = vectorizer_skills.transform(test_data['Cleaned_Column'])

这是行不通的，如果我逐一进行矢量化，那么它可以工作，但是我在训练数据中有 30 多个文本列，这将花费很多时间。如何解决这个问题。

如何使用 tfidf 矢量化器自动进行文本矢量化？

0 个答案: