我有一个训练数据框和测试数据框。训练数据框只有文本列并且被清理,测试数据框只有一列。
train_data
test_data
我已经训练了一个 tfidf 向量化器,所以我要放弃它。
joblib.dump(vectorizer_skills, 'vectorizer_skills.pkl')
转换时,每一列训练数据将使用相同的测试数据。
container_1 = dict()
container_2 = dict()
正在创建容器,以便训练向量化数据可以存储在 container_1 中,测试向量化可以存储在 container_2 中,并带有各自的列名。
for item in train_data.columns:
container_1[item] = vectorizer_skills.transform(train_data[item])
container_2[item] = vectorizer_skills.transform(test_data['Cleaned_Column'])
这是行不通的,如果我逐一进行矢量化,那么它可以工作,但是我在训练数据中有 30 多个文本列,这将花费很多时间。如何解决这个问题。