apache-spark - 使用Spark SQL和Hive写入相同的ORC数据，为什么Spark SQL文件比hive大50％？ - Thinbug

使用Spark SQL和Hive写入相同的ORC数据，为什么Spark SQL文件比hive大50％？

时间：2020-03-30 02:48:17

标签： apache-spark apache-spark-sql orc

运行相同的sql，hive生成的文件为2.5G，而spark sql生成的文件为4.1G。我已经将spark.sql.orc.compression.codec设置为在蜂巢中使用的zlib，并将spark.sql.orc.impl设置为hive，我的Spark版本是2.4.0

1 个答案:

答案 0 :(得分：0)

抱歉，我的问题还不够清楚，因为sql非常大，超过500行，并且对业务敏感。

无论如何，经过调查，我发现问题是由MR / Spark随机播放差异引起的：MR归类减少，而Spark不。排序后的数据非常适合行程编码。