将Hadoop输出导出到文本文件

时间:2014-03-05 02:39:45

标签: hadoop cloudera

在运行一些示例Map Reduce程序后,我使用如下命令检查输出:
hdfs -cat \usr\cloudera\output\part-r-0000

它看起来像这样:

enter image description here

我想知道如何将其导出为文本或csv以供进一步分析。我想将数据放入excel进行分析。我正在使用Cloudera VM for Hadoop。

我做了一个hdfs -get \usr\cloudera\output\part-r-0000 \somewhere\results.txt但它搞砸了内容。

请建议。

1 个答案:

答案 0 :(得分:4)

最好的办法是修改代码。通过更改reducer以在两个值之间写入逗号,您将获得CSV格式的数据。

当然,看起来数据已经是TSV(制表符分隔格式),这是大多数电子表格所理解的。

至于从HDFS获取数据,请尝试

hdfs -cat \usr\cloudera\output\part-r-0000 >\somewhere\results.txt