自动功能选择-Sklearn.feature_selection

时间:2018-09-04 13:59:23

标签: python tensorflow machine-learning scikit-learn

我有两个数据集,分别是火车和测试数据。 train.shape =(307511,122)和test.shape =(48744,121)。这两个数据集都包含以下dtype:int32,float64和object。

我进行了热编码,将对象转换为float或int dtype。

Couldn't match type ‘[[Char]]’ with ‘Char’
  Expected type: String
    Actual type: [[[Char]]]

我从上面的代码获得了以下结果:

train = pd.get_dummies(train)
test = pd.get_dummies(test)
print('Train dummies shape: {}'.format(train.shape))
print('Test dummies shape: {}'.format(test.shape))

形状已更改,因此HotEncoding成功。但是现在我面临的问题是,当我尝试训练和测试数据时,出现此错误:

Train dummies shape: (307511, 246)
Test dummies shape: (48744, 242)

这些是我的进口货

ValueError: Input contains NaN, infinity or a value too large for dtype('float32')

请帮助

1 个答案:

答案 0 :(得分:2)

尝试一下:

train.as_matrix().astype(np.float)
test.as_matrix().astype(np.float)