运行相同的sql,hive生成的文件为2.5G,而spark sql生成的文件为4.1G。 我已经将spark.sql.orc.compression.codec设置为在蜂巢中使用的zlib,并将spark.sql.orc.impl设置为hive,我的Spark版本是2.4.0
答案 0 :(得分:0)
抱歉,我的问题还不够清楚,因为sql非常大,超过500行,并且对业务敏感。
无论如何,经过调查,我发现问题是由MR / Spark随机播放差异引起的:MR归类减少,而Spark不。排序后的数据非常适合行程编码。