我们在Azure ML Studio平台(初始的拖放系统)之上的Azure中运行了一些ML模型。过去一年来一切都很好,但是我们需要继续前进,以便可以更好地扩展。因此,我正在使用scikit-learn在Python中重写它们,并在Jupyter笔记本中对其进行测试。
好消息/坏消息是,我们要训练的数据非常小(数据库中有数百条记录)。这是非常不完美的数据,无法做出非常不完美的回归预测,因此可能会出现错误。很好。对于这个问题,这很好。因为问题在于,当我测试这些模型时,预测太完美了。我不明白自己在做什么错,但显然我在做某事错了。
(在我看来)显而易见的事情是,我正在训练测试数据,或者通过相关性发现了明显/完美的因果关系。我对train_test_split
的使用告诉我,我没有在测试数据上进行训练,并且我保证第二个错误是因为该空间的混乱程度(我们大约在15年前开始对此数据进行手动线性回归,并且仍然维护Excel电子表格,以便能够在一瞬间进行手动操作,即使它的准确度远低于我们的Azure ML Studio模型也是如此。
让我们看一下代码。这是我的Jupyter笔记本的相关部分(很抱歉,如果有更好的格式化方法):
X = myData
y = myData.ValueToPredict
X_train, X_test, y_train, y_test = train_test_split(
X,
y,
train_size = 0.75,
test_size = 0.25)
print("X_train: ", X_train.shape)
print("y_train: ", y_train.shape)
print("X_test: ", X_test.shape)
print("y_test: ", y_test.shape)
X_train:(300,17)
y_train:(300,)
X_test:(101,17)
y_test:(101,)
ESTIMATORS = {
"Extra Trees": ExtraTreesRegressor(criterion = "mse",
n_estimators=10,
max_features=16,
random_state=42),
"Decision Tree": DecisionTreeRegressor(criterion = "mse",
splitter = "best",
random_state=42),
"Random Forest": RandomForestRegressor(criterion = "mse",
random_state=42),
"Linear regression": LinearRegression(),
"Ridge": RidgeCV(),
}
y_test_predict = dict()
y_test_rmse = dict()
for name, estimator in ESTIMATORS.items():
estimator.fit(X_train, y_train)
y_test_predict[name] = estimator.predict(X_test)
y_test_rmse[name] = np.sqrt(np.mean((y_test - y_test_predict[name]) ** 2)) # I think this might be wrong but isn't the source of my problem
for name, error in y_test_rmse.items():
print(name + " RMSE: " + str(error))
额外树的RMSE:0.3843540838630157
决策树RMSE:0.32838969545222946
Random Forest RMSE:0.4304701784728594
线性回归RMSE:7.971345895791494e-15
Ridge RMSE:0.0001390197344951183
y_test_score = dict()
for name, estimator in ESTIMATORS.items():
estimator.fit(X_train, y_train)
y_test_predict[name] = estimator.predict(X_test)
y_test_score[name] = estimator.score(X_test, y_test)
for name, error in y_test_score.items():
print(name + " Score: " + str(error))
额外树木得分:0.9990166492769291
决策树评分:0.9999282165241745
随机森林得分:0.998766521504593
线性回归得分:1.0
里奇得分:0.9999999998713534
我认为也许我在错误度量标准上做错了,所以我只是看了简单的分数(这就是为什么我将两者都包括在内)的原因。但是,两者都表明,这些预测太好了,无法成立。请记住,输入量很小(总共约400项?)。而且,所运行的数据本质上是根据天气模式来预测商品消费,而天气模式一开始是一个杂乱的空间,因此应该存在很多错误。
我在这里做什么错了?
(此外,如果我可以更好地提出这个问题或提供更多有用的信息,我将不胜感激!)
这是数据的热图。我指出了我们所预测的价值。
我还绘制了一些更重要的输入与我们预测的值(用另一个维度进行颜色编码):
如@jwil所指出的那样,我没有将ValueToPredict
列从我的X
变量中拉出来。解决方案是添加一条线以删除该列:
X = myData
y = myData.ValueToPredict
X = X.drop("ValueToPredict", 1) # <--- ONE-LINE FIX!
X_train, X_test, y_train, y_test = train_test_split(
X,
y,
train_size = 0.75,
test_size = 0.25)
有了这个选项,我的错误和分数会比我期望的还要多:
额外的树RMSE:1.6170428819849574
决策树RMSE:1.990459810552763
Random Forest RMSE:1.699801032532343
线性回归RMSE:2.5265108241534397
Ridge RMSE:2.528721533965162
额外树木得分:0.9825944193611161
决策树得分:0.9736274412836977
随机森林得分:0.9807672396970707
线性回归得分:0.9575098985510281
里奇得分:0.9574355079097321
答案 0 :(得分:1)
您是对的;我强烈怀疑您的X数据中有一个或多个功能与Y数据几乎完全相关。通常这很不好,因为这些变量不能解释Y,而是由Y解释或与Y共同确定。要解决此问题,请考虑对X执行Y的线性回归,然后使用简单的p值或AIC / BIC确定哪个X变量最不相关。删除这些并重复该过程,直到您的R ^ 2开始严重下降(尽管每次都会下降一点)。其余变量将与预测最相关,希望您能够从该子集中确定哪些变量与Y紧密相关。