ValueError:x和y的大小必须相同

时间:2019-10-28 11:31:40

标签: python matplotlib scikit-learn linear-regression

我有一个数据集,我正在尝试使用sklearn计算线性回归。 我正在使用的数据集已经制作完毕,因此不会有任何问题。 我已经使用train_test_split来将我的数据分为训练和测试组。 当我尝试使用matplotlib在ttest和预测组之间创建散点图时,出现下一个错误:

  

ValueError:x和y的大小必须相同

这是我的代码:

y=data['Yearly Amount Spent']
x=data[['Avg. Session Length','Time on App','Time on Website','Length of Membership','Yearly Amount Spent']]
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=101)

#training the model

from sklearn.linear_model import LinearRegression
lm=LinearRegression()
lm.fit(x_train,y_train)
lm.coef_

predictions=lm.predict(X_test)

#here the problem starts:

plt.scatter(y_test,predictions)

为什么会出现此错误? 我在这里看到过以前的帖子,对此的建议是使用 x.shape y.shape ,但我不确定这样做的目的是什么。

谢谢

1 个答案:

答案 0 :(得分:0)

您似乎正在使用EcommerceCustomers.csv数据集(link here

在您的原始帖子中,'Yearly Amount Spent'y中也包含x列,但这是错误的。

以下内容应该可以正常工作:

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

data = pd.read_csv("EcommerceCustomers.csv")

y = data['Yearly Amount Spent']
X = data[['Avg. Session Length', 'Time on App','Time on Website', 'Length of Membership']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)


# ## Training the Model
lm = LinearRegression()
lm.fit(X_train,y_train)

# The coefficients
print('Coefficients: \n', lm.coef_)

# ## Predicting Test Data
predictions = lm.predict( X_test)

另请参阅this