Question

我正在努力在pandas中对一列zipcodes进行dummifying，这样我就可以在sklearn中构建一个随机的森林模型。这是我的代码：

forest_test_features = test_df[['sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated']] forest_test_features.append(pd.get_dummies(test_df['zipcode'])) forest_test_target = test_df['price']

我得到了一个运行时警告，然后我的模型的R ^ 2得分远远低于我只是在模型中保留zipcode而没有记忆的情况，这表明出现了问题。 pd.get_dummies返回一个数据帧，我认为问题在于这个数据帧和forest_test_features有两个不同的顺序，但我不确定如何继续。索引仍然正确（邮政编码98144映射到get_dummies返回的'98144'列中的'1'。）

我也收到此警告：RuntimeWarning：'＆lt;' 'str'和'int'实例之间不支持，对于无法比较的对象，未定义排序顺序 result = result.union（other）

Answer 1

您可以指定订单。我猜你有一个forest_train_features数据帧。你可以这样做：

attachEvent

列应该是相同的顺序。您也可以对列车进行相同的预处理并在同一个DataFrame中进行测试，然后将其拆分

附加两个pandas数据帧时的索引问题

1 个答案: