我正在尝试在python中运行回归。我有一个列表列表(是较大列表的一部分),看起来像这样:
[[1307622004, 0.0, 339.093, 130.132],
[10562004, 0.0, 206.818, 62.111],
[127882004, 0.0, 994.624, 360.497],
[63702004, 0.0, 89.653, 19.103],
[655902004, 0.0, 199.613, 83.296],
[76482004, 0.0, 1891.0, 508.0],
[16332004, 0.0, 160.344, 25.446],
[294352004, 0.0, 67.115, 22.646],
[615922004, 0.0, 134.501, 41.01],
[1212572004, 0.0, 232.616, 5.086],
[658992004, 0.0, 189.155, 7.906],
[61962004, 0.0, 806.7, 164.1],
[121712004, 0.0, 1147.532, 271.014],
[1250142004, 0.0, 29.556, -5.721],
[148082004, 0.0, 22.05, -17.655]]
它看起来像这样,因为每一行都是我要从中导入数据的CSV文件中的一行。从现在开始,请将列表中的元素视为变量列,以更好地理解我要回归的内容。例如,列表中的前4个列表看起来像变成了列(我不需要将变量变成我已经出于说明目的将其变成列):
1307622004 0.0 339.093 130.132
10562004 0.0 206.818 62.111
127882004 0.0 994.624 360.497
继续我的示例,我希望第一列是我的因变量,而所有其他列是我的自变量。 我尝试使用numpy将列表转换为数组,然后应用sklearn回归。下面是一个代码段:
重要注意事项:list_of_lists包含许多与问题开始时提供的列表相似的元素。
from sklearn import datasets ## imports datasets from scikit-learn
from sklearn.linear_model import LinearRegression
import numpy as np
for item in list_of_lists:
test_array = np.asarray(item)
# print(test_array)
X, Y = test_array[:, 0], test_array[:, 1]
mdl = LinearRegression().fit(X, Y)
scores = LinearRegression.score(X, Y)
print('--------------------------')
问题是我得到以下输出:
如果数据具有单个特征,则使用array.reshape(-1,1)来重塑数据;如果包含单个样本,则使用array.reshape(1,-1)来重塑数据。
我对python以及python中数组,矩阵的用法非常陌生,所以我不太了解发生了什么。
答案 0 :(得分:1)
我不太确定为什么要遍历列表。更好的是使回归适合数组。另外,如果您希望第一列是您的响应(因变量),而所有其他列都作为预测变量(因变量),则需要更改X
和Y
的定义,因为有了它,第一列作为预测变量,第二列作为响应:
test_array = np.asarray(list_of_lists)
# Set independent variables to be all columns after first, dependent to first col
X, Y = test_array[:, 1:], test_array[:, 0]
# Create a regressor
reg = LinearRegression()
# Fit it to your data
mdl = reg.fit(X, Y)
# Exctract the R^2
scores = reg.score(X,Y)