我有一个2.1TB未压缩数据,我将其加载到2个表中,这两个表都是压缩的,但是一个是镶木地板文件格式,另一个是使用ORC文件格式。在创建镶木地板文件格式时,我保持hdfs块大小与parquet.block.size相同。
我观察到我的地图减少查询与镶木地板相比表现非常差,与ORC相比有很大差距。这些是聚合查询,ORC需要一分钟的时间,而实木复合地板需要超过5-6分钟。当我使用Tez执行引擎时,性能可比。
我正在使用hdp 2.5.x版本的发行版。
任何人都面临类似的问题和任何提高单独使用MR的性能的提示吗?