标签: hadoop mapreduce hadoop2
我有一个2GB(例如avro)文件,该文件已由BZip2(可拆分)压缩,并且我有一个完全相似的文件(再次avro)未压缩(因此无法拆分)。块大小为128 MB。 我的问题是,如果我对上述两个运行查询,例如SparkSQL,以上哪个将创建更多的映射器任务,而哪个将更快?同样,两者的输入分割相同。