我们正在使用Spark 1.6(Cloudera 5.8.2)。我们使用下面的命令来生成ORC输出。
dataframe.write().format("orc").save("spark_orc_output");
在其中一个输出文件中,我们运行了hive --orcfiledump。它显示该输出文件中有196个Stripes。每个条带的数据大小在19KB到19MB之间。
根据我们的理解,条带大小由某些属性(orc.stripe.size,hive.exec.orc.default.stripe.size)驱动,这是应用程序中的常量。 所以,