我有两个数据框,train
和test
。它们都具有完全相同的列名,其中包含分类字符串功能。
我试图将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集进行相同的精确映射,并将训练后的模型应用于它。
我遇到的问题是,由于test
小于train
,因此碰巧不包含某些分类功能的所有可能值。由于pandas.get_dummies()
似乎只是查看data.Series.unique()
来创建新列,因此在为train
和test
添加虚拟列之后,test
现已减少列。
那么我该如何为train
添加虚拟列,然后为test
使用相同的精确列名,即使test
,test.feature.unique()
中的特定功能也是如此是train.feature.unique()
的子集?我查看了pd.get_dummies documentation,但我认为我没有看到任何我正在寻找的东西。非常感谢任何帮助!