应用错误收集

我们正在使用Spark 1.6（Cloudera 5.8.2）。我们使用下面的命令来生成ORC输出。

dataframe.write().format("orc").save("spark_orc_output");

在其中一个输出文件中，我们运行了hive --orcfiledump。它显示该输出文件中有196个Stripes。每个条带的数据大小在19KB到19MB之间。

根据我们的理解，条带大小由某些属性（orc.stripe.size，hive.exec.orc.default.stripe.size）驱动，这是应用程序中的常量。所以，