我目前正在将H2O's AutoML用于数据科学项目。但是,在文档,Internet或代码中都找不到我可以使用AutoML处理因子变量的方法-它可以进行一键编码吗?标签编码?还有更高级的吗?是否考虑有多少个级别?是否取决于算法?
当前,AutoML的性能确实很差(略高于基线),我怀疑这是因为它没有正确处理分类,约占我的预测变量的90%。
答案 0 :(得分:1)
AutoML自动运行H2O-3中可用的监督学习模型。因此,AutoML处理类别的方式取决于它正在运行的给定模型的默认类别处理。可以在here上找到有关分类处理的文档,如果您对特定算法感兴趣,请使用相同的文档来查找您感兴趣的算法,并查看有关如何处理分类值或使用Python或R API文档的详细信息查找默认值。