我意识到我们无法准确地决定要使用多少个地图任务,我们只能建议。但它仍然没有意义。
2016-01-07 07:19:25,117 INFO org.apache.hadoop.mapred.FileInputFormat (main): Total input paths to process : 1
2016-01-07 07:19:25,165 INFO org.apache.hadoop.mapreduce.JobSubmitter (main): number of splits:40
我的输入中有一个.txt
文件,其中包含:
x,2,65
t,6,12
y,5,11
n,3,71
.
.
(8 lines)
我希望创建8个地图任务,但是我会得到40个地图任务,其中32个没有任何东西通过标准输入,因此不做任何事情。
我正在通过每个map任务运行一个单独的可执行文件,每行包含所需的参数。
这一切如何运作?