使用Spark SQL和Hive写入相同的ORC数据,为什么Spark SQL文件比hive大50%?

时间:2020-03-30 02:48:17

标签: apache-spark apache-spark-sql orc

运行相同的sql,hive生成的文件为2.5G,而spark sql生成的文件为4.1G。 我已经将spark.sql.orc.compression.codec设置为在蜂巢中使用的zlib,并将spark.sql.orc.impl设置为hive,我的Spark版本是2.4.0

1 个答案:

答案 0 :(得分:0)

抱歉,我的问题还不够清楚,因为sql非常大,超过500行,并且对业务敏感。

无论如何,经过调查,我发现问题是由MR / Spark随机播放差异引起的:MR归类减少,而Spark不。排序后的数据非常适合行程编码。

相关问题