我正在尝试将两个具有不同列的数据帧连接起来,以实现一键编码。 因此,我有了新创建的数据框,名为“ df_train_cat”,原始的培训数据为“ train”。
我尝试过:
print(train.shape)
print(df_train_cat.shape)
得到了:
>> (4994, 30)
>> (4994, 17)
哪个看起来还好。 但是我不明白下面的行输出:
print(pd.concat([train,df_train_cat],axis=1).shape)
>> (8702, 47)
我真的无法弄清楚实际发生了什么...我期望形状是-
>> (4994,47)
我的目标非常明显-使用新的一键编码功能创建训练和测试数据帧。
train_new = pd.concat([train,df_train_cat], axis=1)
test_new = pd.concat([test, df_test_cat], axis=1)