我正在尝试使用rhipe和RHadoop [rmr rhdfs rhbase等]系列软件包。
现在在两个软件包[rhipe和rmr]中,我可以摄取/读取存储在csv或文本文件中的数据。它们都支持创建新的文件格式,但我发现rmr对它有更多的支持,或者至少有更多的资源可以开始使用。好吧,当计划对存储在HDFS中的原始数据执行少量数据处理并最终希望以Hadoop的其他组件(如Hive Impala等)可识别的格式将其存储回HDFS时,此要求将非常有用。两个软件包都可以写入只能通过包识别的原生格式。包rmr支持其他几种格式。
有关rmr的参考,请查看:https://github.com/RevolutionAnalytics/rmr2/blob/master/docs/getting-data-in-and-out.md
然而对于rhipe我没有得到任何这样的文件,我尝试了各种失败方式。
所以我的问题是,在读取存储在HDFS中并在rhipe中运行rhwatch
的文件后,如何回写文本[例如,其他可识别的格式也可以工作]?