附加两个pandas数据帧时的索引问题

时间:2017-10-12 14:51:38

标签: python pandas

我正在努力在pandas中对一列zipcodes进行dummifying,这样我就可以在sklearn中构建一个随机的森林模型。这是我的代码:

forest_test_features = test_df[['sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated']] forest_test_features.append(pd.get_dummies(test_df['zipcode'])) forest_test_target = test_df['price']

我得到了一个运行时警告,然后我的模型的R ^ 2得分远远低于我只是在模型中保留zipcode而没有记忆的情况,这表明出现了问题。 pd.get_dummies返回一个数据帧,我认为问题在于这个数据帧和forest_test_features有两个不同的顺序,但我不确定如何继续。索引仍然正确(邮政编码98144映射到get_dummies返回的'98144'列中的'1'。)

我也收到此警告:RuntimeWarning:'<' 'str'和'int'实例之间不支持,对于无法比较的对象,未定义排序顺序   result = result.union(other)

1 个答案:

答案 0 :(得分:0)

您可以指定订单。我猜你有一个forest_train_features数据帧。你可以这样做:

attachEvent

列应该是相同的顺序。 您也可以对列车进行相同的预处理并在同一个DataFrame中进行测试,然后将其拆分