如何在新数据集上使用pandas进行热编码?

时间:2018-03-08 19:23:13

标签: python pandas

我的训练数据集具有分类功能,我将pd.get_dummies用于一个热编码。这将生成具有n个特征的数据集。然后,我在具有n个特征的该数据集上训练分类模型。如果我现在获得具有相同分类特征的一些新数据并再次执行一次热编码,则得到的特征数量为m <1。 Ñ

如果尺寸与原始训练数据不匹配,我无法预测新数据集的类别。

在一次热门编码后,有没有办法在新数据集中包含所有原始n个功能?

编辑:我使用sklearn.ensemble.RandomForestClassifier作为我的分类库。

1 个答案:

答案 0 :(得分:2)

例如,

你有tradf列['A_1','A_2']

使用你的新df你有列['A']但只有一个类别1,你可以做

pd.get_dummies(df).reindex(columns=tradf.columns,fill_value=0)