我使用xgboost包版本0.6在python中为回归任务训练的xgboost模型使用奇怪的值进行拆分。用作分裂标准的一些值根本不存在于列车组中。 例: - 有一个变量'text',其值为[Missing,1,2] - 然而,训练模型中的节点的导出分裂标准是“文本< 4
如果在数据集中找不到这样的值( - > 4),这种分裂的可能原因是什么?拆分不会增加信息增益,因为所有样本都在此决策节点之后跟随一个分支。
答案 0 :(得分:0)
可能的解释:您将所有非缺失值转到'text< 4'分支,以及所有缺失的值 - 'text> 4' - 分支。你能核实一下吗?