Spark 1.6和计算统计信息

时间:2019-03-20 07:00:48

标签: apache-spark hive impala

当使用来自spark1.6的表的基础镶木地板文件时,计算统计信息是否仍然有用?例如:

 hiveCtx.read.format("parquet")
        .load("/path/*.parquet").registerTempTable("TEST") 

1 个答案:

答案 0 :(得分:0)

这取决于各种情况

  • 您的表是否已分区,如果已分区,那么您是在读取一个分区还是全部读取。
  • 如果您的表已分区,则始终建议从表中读取数据,因为Hive OR Impala维护元数据,并在Spark中创建具有关联数据的数据帧,这将使您在Spark DF上进行一些转换时代码的性能更好。
  • 我可以看到您正在使用hiveContext来读取实木复合地板文件,从性能角度来看,它的挠度很小,但总体上没有太大差异。