Hadoop调度映射进程到文件位置

时间:2014-08-12 07:57:02

标签: hadoop

我有一个用例,我需要处理存储在HDFS中的大量文件。这些文件是不可拆分的,需要处理单个映射过程。我希望在任务跟踪器中安排数据已经可用的地图过程。我该怎么做?目前,我有一个包含文件名列表的文件。每个地图通过NLineInputFormat获得一行。然后,映射进程通过FSDataInputStream访问该文件并使用它。有没有办法确保此映射过程在文件可用的节点上运行?我想避免使用WholeFileINputFormat,因为我读到它会加载文件的值并提供给映射器。

0 个答案:

没有答案