Question

我正在使用SAP Predictive Analytics库来预测某个变量。为此，我使用了随机决策树算法（也称为Random Fores）算法。我有24个功能和25,000行。我正在使用以下参数来训练模型。

INSERT INTO #PAL_PARAMETER_TBL VALUES ('HAS_ID', 1, null, null);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('TREES_NUM', 100, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('TRY_NUM', 3, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('MAX_DEPTH ', 6, null, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('SEED', 0, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('SPLIT_THRESHOLD', NULL, 1e-5, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('CALCULATE_OOB', 1, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('NODE_SIZE', 500, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('THREAD_RATIO', NULL, 1.0, NULL);

以下是我得到的输出-

左列是预测输出，右列是置信度。实际值应该如下-

在我的训练集中，我的值（因变量）的范围从1.7到4。所以，我的问题是，为什么模型以这种方式运行？我还注意到，对于决策树算法使用相同的数据集，我得到的值与实际输出足够接近。由于随机森林基于决策树，因此它应该输出更准确的值！

请帮助。

参考-SAP PAL Reference guide

为什么使用SAP PAL的随机森林为每个输入预测相同的值？

0 个答案: