我有两个数据集,分别是火车和测试数据。 train.shape =(307511,122)和test.shape =(48744,121)。这两个数据集都包含以下dtype:int32,float64和object。
我进行了热编码,将对象转换为float或int dtype。
Couldn't match type ‘[[Char]]’ with ‘Char’
Expected type: String
Actual type: [[[Char]]]
我从上面的代码获得了以下结果:
train = pd.get_dummies(train)
test = pd.get_dummies(test)
print('Train dummies shape: {}'.format(train.shape))
print('Test dummies shape: {}'.format(test.shape))
形状已更改,因此HotEncoding成功。但是现在我面临的问题是,当我尝试训练和测试数据时,出现此错误:
Train dummies shape: (307511, 246)
Test dummies shape: (48744, 242)
这些是我的进口货
ValueError: Input contains NaN, infinity or a value too large for dtype('float32')
请帮助
答案 0 :(得分:2)
尝试一下:
train.as_matrix().astype(np.float)
test.as_matrix().astype(np.float)