应用错误收集

磁盘上的R h2o型号大小

时间：2019-01-18 14:15:53

标签： r h2o

我正在使用msg: "{{ item }} is not defined" when: "{{ item }} is not defined"软件包来训练GBM来解决客户流失预测问题。

我只想知道是什么因素影响了保存在磁盘上的拟合模型的大小（通过failed: [hostname] (item=street) => {"changed": false, "item": "street", "msg": "street is not defined"}），但是不幸的是我无法在任何地方找到答案。

更具体地说，当我调整GBM以在3个相同长度的非重叠滚动窗口上找到最优的超参数（通过h2o）时，我得到的模型的大小不可比（即11mb，19mb和67mb）。超参数网格是相同的，火车集的大小也是可比的。

自然地，优化的超参数在3个时间间隔内是不同的，但是我看不到它如何在模型大小上产生这种差异。

此外，当我基于这些超参数集训练实际模型时，最终也会得到具有不同大小的模型。

感谢您的帮助！谢谢

ps。抱歉，由于隐私限制，我无法共享任何可重现的数据集

2 个答案:

答案 0 :(得分：4)

这是您期望的两件事：树木的数量和深度。

但这也取决于您的数据。对于GBM，可以根据数据将树木砍短。

我要做的是导出MOJO，然后按照以下文档中的描述对其进行可视化，以获取有关实际产生的内容的更多详细信息：

http://docs.h2o.ai/h2o/latest-stable/h2o-genmodel/javadoc/index.html

请注意，通常60 MB的范围似乎并不过分。

答案 1 :(得分：2)

如果您查看模型信息，则会发现有关树木数量，树木平均深度等方面的信息。比较这三个最佳模型之间的差异，应该可以使您深入了解使模型变大的原因。

在R中，如果m是您的模型，只需打印它即可为您提供大部分信息。 str(m)为您提供了所拥有的所有信息。

我认为是值得调查的。原因可能是其中的两个数据窗口相对清晰，只有几个字段可以定义树，而第三个数据窗口更加混乱（在数学意义上），并且您正在制作一些深树尝试将其拆分为决策树。

更深入地查看第三个窗口可能会建议您执行一些数据工程，这将使它更易于学习。或者，可能是您的数据有所不同。例如。在2016年和2017年数据中，一列全为NULL，但在2018年数据中全为NULL，因为2018年是您开始收集的一年，正是这一额外的列使/使树变得更深。

最后，也许网格超参数对于性能而言并不重要，而这归因于噪声。例如。您有max_depth作为超参数，但是对MSE的影响很小，而噪声是很大的因素。这些随机差异可能会使您的最佳模型进入两个数据集的深度5（但第二最佳模型差0.01％，但进入深度20），但对于第三数据集，则进入深度30（但进入第二最佳模型）差了0.01％，但只达到深度5）。（如果我正确理解了您的问题，那么您就消除了这种可能性，因为您然后在相同的超参数上训练了所有三个数据集？但是我想还是应该包括它。）