合并文件输入格式hadoop

时间:2019-01-02 21:05:22

标签: hadoop mapreduce hadoop-partitioning

我正在使用CombineFileInputFormat进行map-reduce操作,以处理小文件(大小为kb)和大文件(数百mb和某些GB)。我的MapReduce.input.fileinputformat.split.maxsize为64 MB和setMaxSplitSize(67108864)。映射器启动时,此行将打印在syslog中。

2018-12-29 10:26:10,138 INFO [main] org.apache.hadoop.mapred.MapTask: Processing split: Paths:
/input/file.csv-m-00002:0+908250,
/input/file_68171.txt-m-00000:0+36589,
/input/file_27138.txt-m-00000:0+62929,
/input/file_62783.txt-m-00000:0+77776,
/input/file_26540.txt-m-00001:0+50115,
/input/file_12282018.txt-m-00007:0+65766888,
/input/file_12282018.txt-m-00007:65766888+65766889.

有人可以解释以上处理拆分吗?当我添加这些拆分总数时,拆分总数大于拆分大小。

我对重新分割文件有疑问

  • 在使用CombineFileInputFormat时使用哪个值,则使用CombineFileInputFormat类中的mapreduce.input.fileinputformat.split.maxsize或setMaxSplitSize()?

  • setMaxSplitSize()如何处理比maxSplitSize大的文件呢?

  • mapreduce.input.fileinputformat.split.maxsize和setMaxSplitSize()有什么区别?

0 个答案:

没有答案