Question

我正在使用CombineFileInputFormat进行map-reduce操作，以处理小文件（大小为kb）和大文件（数百mb和某些GB）。我的MapReduce.input.fileinputformat.split.maxsize为64 MB和setMaxSplitSize（67108864）。映射器启动时，此行将打印在syslog中。

2018-12-29 10:26:10,138 INFO [main] org.apache.hadoop.mapred.MapTask: Processing split: Paths:
/input/file.csv-m-00002:0+908250,
/input/file_68171.txt-m-00000:0+36589,
/input/file_27138.txt-m-00000:0+62929,
/input/file_62783.txt-m-00000:0+77776,
/input/file_26540.txt-m-00001:0+50115,
/input/file_12282018.txt-m-00007:0+65766888,
/input/file_12282018.txt-m-00007:65766888+65766889.

有人可以解释以上处理拆分吗？当我添加这些拆分总数时，拆分总数大于拆分大小。

我对重新分割文件有疑问

在使用CombineFileInputFormat时使用哪个值，则使用CombineFileInputFormat类中的mapreduce.input.fileinputformat.split.maxsize或setMaxSplitSize（）？
setMaxSplitSize（）如何处理比maxSplitSize大的文件呢？
mapreduce.input.fileinputformat.split.maxsize和setMaxSplitSize（）有什么区别？

合并文件输入格式hadoop

0 个答案: