我有两个数据框:
df_train
import boto3
dynamodb = boto3.resource('dynamodb')
table = dynamodb.Table('test')
item2 = {
"id": "2",
"name": "Testing2",
"age": 22,
"grades": [ decimal.Decimal('3.50'), decimal.Decimal('3.1415926') ]
}
table.put_item(Item=item2)
df_test
Data types in the dataset: ['uint8', 'int64', 'float64']
Number of features: 233
Shape: (1457, 233)
列数(233 vs 216)的差异是由于我在Data types in the dataset: ['uint8', 'int64', 'float64']
Number of features: 216
Shape: (1447, 216)
中创建的虚拟变量 - 在pd.get_dummies()
中创建的更少。在此之前,df_test
最初只包含一个额外变量“SalePrice”,它是要在df_train
上预测的目标变量。
df_test
这导致了稳定的测试集得分,一切都很好。但是,当我尝试在X = df_train.drop(["SalePrice"], axis=1)
y = df_train["SalePrice"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)
from sklearn.linear_model import Ridge
ridge = Ridge().fit(X_train, y_train)
上预测如下
df_test
它出现以下错误:
ValueError:形状(1447,216)和(232,)未对齐:216(暗淡1)!= 232(暗淡0)
我知道我搞砸了不同的形状。你能帮我解决这个问题吗?我有0经验。非常感谢。