线性回归火车/形状输出不正确

时间:2020-07-15 10:57:11

标签: python database jupyter-notebook linear-regression sklearn-pandas

我正在尝试使用线性回归来预测未来几年内演出的发行量。我有一个数据框,其中任何行都是发布的,列中包含诸如发布年份,类型等信息,...我想用它来预测即将发布的发布量,所以我要做的是制作一个新的数据框所有唯一年份和count_values的总和,以获取该年的发行量。所以现在我有85行,其中2列是年份1,另一列是发行量。

为此,我正在使用sklearn,这是我到目前为止编写的代码。

x = ML_content.drop('releases', axis = 1)
#x = ML_content['years']
y = ML_content['releases']
x_train, y_train, x_test, y_test = train_test_split(x, y, test_size = 20)
x_train.shape, y_train.shape
model = linear_model.LinearRegression()
model.fit(x_train, y_train)

我认为形状处理的结果不符合我的要求(结果是:((42, 1), (43, 1))) 因此,以下代码也不起作用。谁能解释我做错了什么或需要什么才能改变这种情况。

感谢您的时间和帮助

1 个答案:

答案 0 :(得分:1)

根据https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
然后以另一种顺序返回train_test_split。
返回的顺序为:X_train,X_test,y_train,y_test
您得到了:x_train,y_train,x_test,y_test