我正在H2O.ai中使用随机森林(DRF)和GBM创建分类和回归模型。我认为我不需要对数据进行标准化(或缩放),因为它可能会更加有害,因为它可能会消除模型的非线性特性。您能否确认我的理解是否正确。
答案 0 :(得分:7)
使用H2O时,您无需对数据执行任何操作 - 所有算法都会自动处理数字/分类/字符串列。有些方法会自动进行内部标准化,但树方法不需要也不需要(在年龄> 5时分割,收入<100000就好了)。至于它是否“有害”取决于你正在做什么,通常让算法进行标准化是一个好主意,除非你确切知道你在做什么。一个例子是聚类,其中距离取决于数据的缩放(或缺少)。