我正在使用SAP Predictive Analytics库来预测某个变量。为此,我使用了随机决策树算法(也称为Random Fores)算法。我有24个功能和25,000行。我正在使用以下参数来训练模型。
INSERT INTO #PAL_PARAMETER_TBL VALUES ('HAS_ID', 1, null, null);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('TREES_NUM', 100, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('TRY_NUM', 3, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('MAX_DEPTH ', 6, null, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('SEED', 0, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('SPLIT_THRESHOLD', NULL, 1e-5, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('CALCULATE_OOB', 1, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('NODE_SIZE', 500, NULL, NULL);
INSERT INTO #PAL_PARAMETER_TBL VALUES ('THREAD_RATIO', NULL, 1.0, NULL);
以下是我得到的输出-
左列是预测输出,右列是置信度。 实际值应该如下-
在我的训练集中,我的值(因变量)的范围从1.7到4。所以,我的问题是,为什么模型以这种方式运行?我还注意到,对于决策树算法使用相同的数据集,我得到的值与实际输出足够接近。由于随机森林基于决策树,因此它应该输出更准确的值!
请帮助。