应用错误收集

我是否需要在H2O或一般情况下对随机森林（drf）或梯度增强机（GBM）的数据进行标准化（或缩放）？

时间：2017-04-12 02:25:51

标签： random-forest xgboost h2o

我正在H2O.ai中使用随机森林（DRF）和GBM创建分类和回归模型。我认为我不需要对数据进行标准化（或缩放），因为它可能会更加有害，因为它可能会消除模型的非线性特性。您能否确认我的理解是否正确。

1 个答案:

答案 0 :(得分：7)

使用H2O时，您无需对数据执行任何操作 - 所有算法都会自动处理数字/分类/字符串列。有些方法会自动进行内部标准化，但树方法不需要也不需要（在年龄> 5时分割，收入<100000就好了）。至于它是否“有害”取决于你正在做什么，通常让算法进行标准化是一个好主意，除非你确切知道你在做什么。一个例子是聚类，其中距离取决于数据的缩放（或缺少）。

我是否需要规范化（或缩放）randomForest（R包）的数据？
梯度提升回归是否比随机森林更准确（更低的MSE）？
我可以对时间（年）和纬度和经度作为预测因子的数据使用梯度增强算法吗？
用于＆＃34;重要性＆＃34;的措施是什么？在h2o随机森林中
我是否需要在H2O或一般情况下对随机森林（drf）或梯度增强机（GBM）的数据进行标准化（或缩放）？
随机森林中h2o的MOJO中的辅助树数据
如何使用在H2O.ai中创建的POJO文件输出GBM模型的单个树结果？
Gradient Boosted Tree是否会对残差或整个训练集进行提升？
如何在H2O GBM和DRF中更改预测
为什么需要从随机森林中的数据中随机选择样本？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？