我正在尝试在python中进行简单的线性回归,其中x变量是单词 项目描述的计数,y值是以天为单位的融资速度。
我有点困惑,因为测试的均方根误差(RMSE)为13.77 训练数据则为13.88。首先,RMSE是否应介于0和1之间? 其次,测试数据的RMSE不应高于培训数据的RMSE吗? 所以我想我做错了什么,但不确定错误在哪里。
此外,我需要知道回归的权重系数,但不幸的是 不知道如何打印它,因为它隐藏在sklearn方法中。有人可以帮忙吗?
这是我到目前为止所拥有的:
import numpy as np
import matplotlib.pyplot as plt
import sqlite3
from sklearn.model_selection import train_test_split
from sklearn import linear_model
con = sqlite3.connect('database.db')
cur = con.cursor()
# y-variable in regression is funding speed ("DAYS_NEEDED")
cur.execute("SELECT DAYS_NEEDED FROM success")
y = cur.fetchall() # list of tuples
y = np.array([i[0] for i in y]) # list of int # y.shape = (1324476,)
# x-variable in regression is the project description length ("WORD_COUNT")
cur.execute("SELECT WORD_COUNT FROM success")
x = cur.fetchall()
x = np.array([i[0] for i in x]) # list of int # x.shape = (1324476,)
# Get the train and test data split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)
# Fit a model
lm = linear_model.LinearRegression()
x_train = x_train.reshape(-1, 1) # new shape: (1059580, 1)
y_train = y_train.reshape(-1, 1) # new shape: (1059580, 1)
model = lm.fit(x_train, y_train)
x_test = x_test.reshape(-1, 1) # new shape: (264896, 1)
predictions_test = lm.predict(x_test)
predictions_train = lm.predict(x_train)
print("y_test[5]: ", y_test[5]) # 14
print("predictions[5]: ", predictions_test[5]) # [ 12.6254537]
# Calculate the root mean square error (RMSE) for test and training data
N = len(y_test)
rmse_test = np.sqrt(np.sum((np.array(y_test).flatten() - np.array(predictions_test).flatten())**2)/N)
print("RMSE TEST: ", rmse_test) # 13.770731326
N = len(y_train)
rmse_train = np.sqrt(np.sum((np.array(y_train).flatten() - np.array(predictions_train).flatten())**2)/N)
print("RMSE train: ", rmse_train) # 13.8817814595
非常感谢您的帮助!谢谢!
答案 0 :(得分:3)
RMSE与因变量的单位相同。这意味着,如果您要预测的变量的范围是0到100,则RMSE为99是非常糟糕的!如果说从0到100的数据的RMSE为5,则RMSE为5是非常好的。但是,如果1到10范围内的数据的RMSE为5,则您有问题!我希望这能够使观点有所帮助。
由于您的火车和测试的RMSE相似,因此请轻拍一下!您实际上做得很好!如果“测试>训练”的RMSE,则说明您的过拟合量略有超出。
根据Umang在评论中所说,您使用model.coef_
和model.intercept_
打印模型计算出的最佳权重。