DAI在训练过程中是否进行标准化/标准化,会尝试哪种方法,遗传算法会尝试所有方法吗?

时间:2019-05-02 13:59:54

标签: h2o driverless-ai

通常我不确定使用DAI时对数据进行何种程度的预处理。通常,您想减少生产级别模型的尺寸,消除重复特征,标准化/规范化等。是否有一条规则我应该停止对DAI的个人预处理(即,只有摆脱Nan和DAI的二进制分类算法才能完成其余工作)。它会明确说明使用哪种标准化技术,例如Sklearn的MinMaxScaler()吗?

1 个答案:

答案 0 :(得分:1)

通常,不需要预处理,DAI用于内部预处理的方法取决于模型背后的算法。

但是,有些特定的用例可能需要预处理,如果您与h2o联系,它们可以为您提供帮助。例如,如果您要在客户级别预测某件事,但您的数据是交易,那么您需要进行预处理-假设您有杂货店交易,并且您要预测该商店明天能赚多少钱。然后,您需要汇总到日间商店级别,因为这是您希望进行预测的级别。基本上,在任何情况下,如果数据的粒度比您希望的预测级别需要进行预处理,则为

对于缺少的值,最好让无人驾驶AI处理它们,除非您知道为什么缺少这些值,从而可以使用域规则来填充它们。例如,如果您拥有transaction = NA,但您知道这意味着不花任何钱,您希望将NA更改为0。

我认为以下文档可能会有所帮助:http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/faq.html#data-experiments-predictions。特别是“无人驾驶AI可以处理缺少值/空值的数据吗?”部分。和“无人驾驶AI是否使数据标准化?”。

您还可以在实验报告http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/experiment-summary.html中找到许多有关实验操作的信息。我们目前尚未报告标准化方法,因为在可能非常复杂的整体中,每种模型的标准化方法都不相同。