我目前有一个包含变量和观察的数据集。我想预测变量(需求),这是一个连续变量,因此我需要使用回归模型。我尝试使用Linear Regression
,并使用R2
指标对其进行评估,该指标大约为0.85
。我想用其他模型评估其性能,其中一个是NNs
。我相信神经网络更适合分类等其他任务,但我想尝试一下。
我决定使用scikit-learn
主要是因为它提供了两种模型(线性回归和多层感知器),事实上R2
指标与线性回归的指标相比太过分和太差了。因此,我得出结论,我错过了许多重要的配置。您可以在下面看到我的代码以及数据的来源。
我的数据包含以下列,仅demand
(我的标签),population
,gdp
,day
和year
是数字连续的,其余的都是绝对的。
['demand','holy','gdp','population', 'day','year', 'f0', 'f1', 'f2', 'f3', 'f4','f5', 'f6', 'f7', 'f8', 'f9', 'f10', 'f11', 'f12', 'f13', 'f14', 'f15', 'f16', 'f17', 'f18', 'f19', 'f20', 'f21', 'f22', 'f23', 'g0', 'g1', 'g2', 'g3', 'g4', 'g5', 'g6', 'g7', 'g8', 'g9', 'g10', 'g11']
这就是我实际做的,我删除了一些输出。
import pandas as pd
import numpy as np
import math as math
from sklearn.linear_model import LinearRegression
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import r2_score
training_data, validation_data = np.split(data.sample(frac=1), [int(.8*len(data))])
linear_model = LinearRegression().fit(training_data[[c for c in data.columns if c != "demand"]], training_data[["demand"]])
validation_data_predictions = linear_model.predict(validation_data[[c for c in training_data.columns if c != "demand"]])
validation_predictions_pd = pd.DataFrame(data=validation_data_predictions,
index=validation_data.index.values,
columns=["prediction"])
# join both pandas
result_df = validation_data.join(validation_predictions_pd, how="inner")
r2_error = r2_score(y_true=result_df[["demand"]], y_pred=result_df[["prediction"]], multioutput="uniform_average")
print(r2_error) # outputs 0.85
# NN section
clf = MLPRegressor(hidden_layer_sizes=(10,), max_iter=100000)
neural_model = clf.fit(training_data[[c for c in training_data.columns if c != "demand"]], training_data[["demand"]])
validation_data_predictions = neural_model.predict(validation_data[[c for c in training_data.columns if c != "demand"]])
validation_predictions_pd = pd.DataFrame(data=validation_data_predictions,
index=validation_data.index.values,
columns=["prediction"])
result_df = validation_data.join(validation_predictions_pd, how="inner")
r2_error = r2_score(y_true=result_df[["demand"]], y_pred=result_df[["prediction"]], multioutput="uniform_average")
print(r2_error) # outputs 0.23
所以,你可以看到NN的表现非常糟糕。我认为它的性能可以改进,任何提示?
答案 0 :(得分:4)
MLP对功能扩展很敏感。您是否对数据进行了标准化处理?
修改您的网络结构:添加更多隐藏图层并更改每个图层的感知器数量
将激活功能更改为sigmod / tanh / relu等。
答案 1 :(得分:1)
可能不是NN的表现不好,也许你只是使用错误的指标进行比较。通常情况下,将R2评分用于评估具有许多回归量的线性回归模型并不是一个好主意:实际上,放入模型的回归量越多,R平方值越高(see this video for a quick explanation)。
无论如何,我认为这个问题更适合https://stats.stackexchange.com/