使用pd.get_dummies后,根据整数列值获取原始列车测试分割

时间:2017-03-28 22:39:37

标签: pandas categorical-data dummy-variable train-test-split

我将我的火车和测试数据集结合起来,并将pandas中的get_dummies函数用于一个热编码分类数据。连接背后的原因是列车和测试集的分类数据中的级别数不同。

如果我在单独的列车和测试集上使用get_dummies函数,那么我会得到一个不同维度的数据帧,所以我想把它们组合起来。

我现在想再将它拆分成火车和测试装置。有可能吗?

假设我们在使用pd.get_dummies后获得的输出被命名为' dataset'。如果' C10'的价值数据集中的列为30(整数),然后数据为beleongs to test set,否则它属于trainset。

如果我尝试像在普通数据帧中那样选择值,我会收到以下错误:

dataset = pd.concat([train, test])
dataset_dummy = pd.get_dummies(dataset, prefix_sep='_', columns = cat_columns, sparse = True, drop_first = True)

test_dummy = dataset_dummy.iloc[dataset_dummy['day'] == 30]


AttributeError: 'BlockManager' object has no attribute 'T'

0 个答案:

没有答案