我正在编写一个代码,使用numpy对数据进行线性单变量回归分析。我知道Python中的fit()函数使用的是np.array(),但是该程序给我带来了元组索引错误,而我现在已经知道了。这是我的代码:
def linear_model_main(X_parameter, Y_parameter, prediction_value):
regression = linear_model.LinearRegression()
regression.fit(X_parameter, Y_parameter, prediction_value)
prediction_outcome = regression.predict(prediction_value)
predictions = {}
predictions['intercept'] = regression.intercept_
predictions['coefficient'] = regression.coef_
predictions['predicted_value'] = prediction_outcome
return predictions
X, Y = get_data(filename)
Xarr = np.array(X)
Yarr = np.array(Y)
predictionvalue = 70
result = linear_model_main(Xarr, Yarr, predictionvalue)
Xarr和Yarr是从csv文件中获取的单独数据列的np.arrays,基本上是回归中的X和Y坐标值。打印时,他们看起来像这样:
[ 7. 73. 49. ..., 56. 56. 56.]
[ 5863. 5860. 5860. ..., 5860. 5860. 5860.]
这是一个庞大的数据集(大约130,000行和35列)。