pandas - 不对齐的数据帧

时间:2017-11-01 17:59:13

标签: python pandas machine-learning scikit-learn sklearn-pandas

我有两个数据框:

df_train

import boto3
dynamodb = boto3.resource('dynamodb')
table = dynamodb.Table('test')

item2 = {
  "id": "2",
  "name": "Testing2",
  "age": 22,
  "grades": [ decimal.Decimal('3.50'), decimal.Decimal('3.1415926') ]
}

table.put_item(Item=item2)

df_test

Data types in the dataset:  ['uint8', 'int64', 'float64']
Number of features:  233
Shape:  (1457, 233)

列数(233 vs 216)的差异是由于我在Data types in the dataset: ['uint8', 'int64', 'float64'] Number of features: 216 Shape: (1447, 216) 中创建的虚拟变量 - 在pd.get_dummies()中创建的更少。在此之前,df_test最初只包含一个额外变量“SalePrice”,它是要在df_train上预测的目标变量。

df_test

这导致了稳定的测试集得分,一切都很好。但是,当我尝试在X = df_train.drop(["SalePrice"], axis=1) y = df_train["SalePrice"] from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y) from sklearn.linear_model import Ridge ridge = Ridge().fit(X_train, y_train) 上预测如下

df_test

它出现以下错误:

  

ValueError:形状(1447,216)和(232,)未对齐:216(暗淡1)!=   232(暗淡0)

我知道我搞砸了不同的形状。你能帮我解决这个问题吗?我有0经验。非常感谢。

0 个答案:

没有答案