Question

我正在尝试使用线性回归来预测未来几年内演出的发行量。我有一个数据框，其中任何行都是发布的，列中包含诸如发布年份，类型等信息，...我想用它来预测即将发布的发布量，所以我要做的是制作一个新的数据框所有唯一年份和count_values的总和，以获取该年的发行量。所以现在我有85行，其中2列是年份1，另一列是发行量。

为此，我正在使用sklearn，这是我到目前为止编写的代码。

x = ML_content.drop('releases', axis = 1)
#x = ML_content['years']
y = ML_content['releases']
x_train, y_train, x_test, y_test = train_test_split(x, y, test_size = 20)
x_train.shape, y_train.shape
model = linear_model.LinearRegression()
model.fit(x_train, y_train)

我认为形状处理的结果不符合我的要求（结果是：((42, 1), (43, 1))）因此，以下代码也不起作用。谁能解释我做错了什么或需要什么才能改变这种情况。

感谢您的时间和帮助

Answer 1

根据https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
然后以另一种顺序返回train_test_split。
返回的顺序为：X_train，X_test，y_train，y_test
您得到了：x_train，y_train，x_test，y_test

线性回归火车/形状输出不正确

1 个答案: