Question

当使用来自spark1.6的表的基础镶木地板文件时，计算统计信息是否仍然有用？例如：

 hiveCtx.read.format("parquet")
        .load("/path/*.parquet").registerTempTable("TEST")

Answer 1

这取决于各种情况

您的表是否已分区，如果已分区，那么您是在读取一个分区还是全部读取。
如果您的表已分区，则始终建议从表中读取数据，因为Hive OR Impala维护元数据，并在Spark中创建具有关联数据的数据帧，这将使您在Spark DF上进行一些转换时代码的性能更好。
我可以看到您正在使用hiveContext来读取实木复合地板文件，从性能角度来看，它的挠度很小，但总体上没有太大差异。