我将我的火车和测试数据集结合起来,并将pandas中的get_dummies函数用于一个热编码分类数据。连接背后的原因是列车和测试集的分类数据中的级别数不同。
如果我在单独的列车和测试集上使用get_dummies函数,那么我会得到一个不同维度的数据帧,所以我想把它们组合起来。
我现在想再将它拆分成火车和测试装置。有可能吗?
假设我们在使用pd.get_dummies后获得的输出被命名为' dataset'。如果' C10'的价值数据集中的列为30(整数),然后数据为beleongs to test set,否则它属于trainset。
如果我尝试像在普通数据帧中那样选择值,我会收到以下错误:
dataset = pd.concat([train, test])
dataset_dummy = pd.get_dummies(dataset, prefix_sep='_', columns = cat_columns, sparse = True, drop_first = True)
test_dummy = dataset_dummy.iloc[dataset_dummy['day'] == 30]
AttributeError: 'BlockManager' object has no attribute 'T'