叶数在h2o树图中代表什么?

时间:2018-08-03 08:54:04

标签: python classification h2o xgboost gbm

Tree plotted

我的分类是0-1分类。那么底部的数字到底在告诉我[为什么它们都是负数? NA也意味着什么?他们是否说这个特殊功能没有在数字比较中分类,因此没有像BreedName这样的名称?

这是我的数据列,“ L”是0-1列,即我的y。 Data

Ques2-这棵树0是主要模型,因为我完成了cv(n = 3)并且我有4棵树[0,1,2,3],我所解释的应该基于第0棵树?

3 个答案:

答案 0 :(得分:0)

在节点链接附近显示的[NA]表示所有nan值都将通过此链接。

我不确定h2o树如何处理nan目标值。无论如何,保留它们永远不是一个好主意。您应根据自己的问题尝试删除它们或将它们替换为0和1。

树的“底部数字”看起来很奇怪...为什么树的顶部写有“类0”?您是否分别训练0级和1级?您能说明如何进行树训练吗?

我不确定“我有四棵树”的意思。交叉验证仅用于检查您的模型可以预测数据的质量。但是,您将用来预测未来数据的模型不是用于交叉验证的模型。它必须是适合您当前所有数据的其他模型。

答案 1 :(得分:0)

回答内联,因为有几个问题:

我的分类是0-1分类。那么底部的数字到底告诉我[为什么它们都是负数?全部是?]

您正在显示树0的图像,这是第一个构建的树(因此不是您的主模型)。树叶值是校正值,您应该使用h2o.predict()来查看最终模型的预测。

NA也意味着什么?

[NA]是指数据集中的NA。您在树拆分中看到的只是指定NA应该走的路。

因为我完成了cv(n = 3)并且我有4棵树[0,1,2,3],所以这棵树0是主要模型,我所解释的应该基于第0棵树对吧?

树0是构建的第一棵树,而不是最终模型。有关CV模型构建过程的详细说明,请参见documentation上的交叉验证

答案 2 :(得分:0)