我有一个数据框,看起来像下面的数据框。
Spent Products bought Target Variable
0 2300 Car/Mortgage/Leisure 0
1 1500 Car/Education 0
2 150 Groceries 1
3 700 Groceries/Education 1
4 900 Mortgage 1
5 180 Education/Sports 1
6 1800 Car/Mortgage/Others 0
7 900 Sports/Groceries 1
8 1000 Self-Enrichment/Car 1
9 140 Car/Groceries 1
我使用pd.get_dummies
对所有“购买的产品”列进行了热编码。 现在我的形状为(5000,150)。
我训练/测试/分割数据,然后应用PCA。我fit_transform
训练组,并且仅将transform
应用于测试组。之后,我使用决策树分类器进行预测,从而获得90%的准确性。
现在问题来了。我有一组新数据。我知道我的模型是在(150)形状上训练的,并且此**新数据在使用pd.get_dummies
编码后仅具有(150,28)形状。
我知道将新数据与旧数据集合并不是解决方案。我有点被困住了,我不确定该如何解决。有人有意见吗?谢谢
编辑:我尝试重新索引新的数据集,但是没有用。在我的训练集的“购买的产品”列中,唯一变量更多,而在新数据集中,则更少。
新数据框看起来更像下面的数据框。
Spent Products bought Target Variable
0 230 Leisure 1
1 150 Others 1
2 100 Groceries 1
3 700 Education 1
4 900 Mortgage 0
5 180 Education/Sports 1
6 1800 Car/Mortgage 0
7 400 Groceries 1
8 4000 Car 1
9 140 Car/Groceries 1