使用mapreduce修改hdfs上的文件

时间:2016-01-21 14:58:51

标签: hadoop mapreduce hdfs

我可以修改驻留在hdfs上的文件吗?是创建具有已修改内容的临时文件并删除原始文件的唯一方法吗?

我可以使用map-reduce修改文件吗?是否可以并行修改不同的文件块,并以某种方式将其合并为一个文件?

1 个答案:

答案 0 :(得分:1)

一旦文件处于HDFS状态,您就无法修改该文件,除非附加到该文件。请参阅此答案,确认可以追加:

Append data to existing file in HDFS Java

Map reduce允许您并行操作文件,每个映射器读取文件块,并且一次运行多个映射器。这就是设计工作的方式。

任何给定的映射器都可以过滤行并将所有,部分或全部写入新文件中。

如果使用map-reduce写出修改后的文件,默认情况下它将显示为文件目录,可根据您的要求合并为单个文件。