我已经了解了Hadoop Map-Reduce作业,将映射器输出写入本地存储而不是HDFS,因为它最终是一次性数据,因此无需存储在HDFS中。
但正如我在Sqoop映射器中看到的那样,输出文件part-m-00000
被写入HDFS。所以我怀疑是否在Hadoop中有一些设置来控制映射器输出写入的位置?它默认设置为本地存储?
答案 0 :(得分:2)
如果没有reducer,则将mapper输出写入HDFS。即使在这种情况下,映射器输出也不会直接写入HDFS,而是写在单个节点磁盘上,然后复制到HDFS。
Sqoop是一种情况,它通常是一个仅限地图的作业,您希望从表中并行获取数据,但不需要在任何条件下减少数据。