在Hadoop MR(基本上是HDFS)中,是否可以以同步/序列化方式从属于单个作业的两个映射器写入同一文件?
还以串行方式从两个以不同作业运行的映射器写入单个文件?
其他文件系统中有信号量。 HDFS的机制是什么?
答案 0 :(得分:0)
Hadoop中的地图任务之间没有通信,因此无法在它们之间进行某种同步。
HDFS中的文件可能由单个作者编写,而许多读者可以阅读。
我认为MapR允许多个作者使用同一个文件。
仅供参考,文件必须在末尾附加,并且任何偏移的修改都是不可能的。
好奇,多个地图任务写入单个文件的用例是什么?
答案 1 :(得分:0)
设置数字或减少数= 1(mapred.reduce.tasks = 1)