在hadoop计算上下文中合并两个xdf文件

时间:2015-05-25 21:05:45

标签: r revolution-r

我有两个RxXdfData数据源,我想在RxHadoopMR计算上下文中的某些列上合并它们。

我的xdf数据源都很大并且存在于hdfs上。我们如何合并它们?

我尝试了RxDataStep追加选项,但革命r抱怨,它不能采取复合xdf文件,建议我改用rxExec。

我知道这可以在本地计算上下文中使用rxMerge函数完成,但后来我必须执行以下步骤:

  1. 将数据复制到边缘节点(本地上下文)
  2. 制作.xdf文件
  3. 使用rxMerge合并.xdf文件
  4. 将输出.xdf文件转换为txt / csv格式
  5. 将txt / csv文件传输到hdfs
  6. 再次使用rxImport将这些文本文件转换回复合xdf文件
  7. 我认为如此漫长的简单合并过程是一种过度杀伤。

    请帮助我解决此问题的最佳解决方案。

    编辑: 我还在革命支持论坛@ https://revolutionanalytics.zendesk.com/entries/53777899-Merging-two-composite-xdf-files-

    上提出了同样的问题

    但到目前为止我还没有收到任何答复。

0 个答案:

没有答案