应用错误收集

为可拆分和不可拆分文件创建的MR任务数

时间：2019-02-20 23:31:41

标签： hadoop mapreduce hadoop2

我有一个2GB（例如avro）文件，该文件已由BZip2（可拆分）压缩，并且我有一个完全相似的文件（再次avro）未压缩（因此无法拆分）。块大小为128 MB。我的问题是，如果我对上述两个运行查询，例如SparkSQL，以上哪个将创建更多的映射器任务，而哪个将更快？同样，两者的输入分割相同。

0 个答案:

没有答案