在SparkR中使用H2O合并列(h2o.merge)

时间:2016-12-23 07:03:46

标签: r merge sparkr h2o

在我目前的项目中,我在SparkR中使用H2O机器学习库。我有多个.csv文件,并通过h2o数据框读取这些.csv文件。现在,我想对文件应用h2o.merge()函数将一个h2o数据帧的主键映射到另一个h2o数据帧的外键。我的主要h2o数据框包含14列。我使用h2o.getTypes()函数获取所有列的数据类型。

为了应用h2o.merge()函数,该列应为string或numeric类型,而不是enum或real。因此,要转换数据类型的列,我使用h2o.ascharacter()h2o.asfactor()函数。现在,我已将枚举列转换为字符串列以使用h2o.merge()函数。当我使用h2o.merge()函数时,它会显示以下错误: SparkR console 我错过了什么吗?我已捕获语法以使用此链接Syntax of h2o.merge function中的h2o.merge()函数。 如何合并h2o数据框? factTable h2o数据框的示例数据集如下所示(SALES_ORG是主键)sample factTable data set regionTable h2o数据框的示例数据集如下所示(SALES_ORG是外键)Sample regionTable data set

1 个答案:

答案 0 :(得分:1)

最后,我使用评论中的提示找出答案。 基本的是我们需要在应用合并操作之前将列转换为factor / enum 。具有主键或外键的列的数据类型应为因子/枚举。