应用错误收集

我有两个数据框，train和test。它们都具有完全相同的列名，其中包含分类字符串功能。

我试图将这些特征映射到训练集中的虚拟变量，训练回归模型，然后对测试集进行相同的精确映射，并将训练后的模型应用于它。

我遇到的问题是，由于test小于train，因此碰巧不包含某些分类功能的所有可能值。由于pandas.get_dummies()似乎只是查看data.Series.unique()来创建新列，因此在为train和test添加虚拟列之后，test现已减少列。

那么我该如何为train添加虚拟列，然后为test使用相同的精确列名，即使test，test.feature.unique()中的特定功能也是如此是train.feature.unique()的子集？我查看了pd.get_dummies documentation，但我认为我没有看到任何我正在寻找的东西。非常感谢任何帮助！

从火车上复制pandas.get_dummies列以测试数据

0 个答案: