使用Spark读取Hive上的激活分区

时间:2016-11-16 17:23:30

标签: apache-spark hive hdfs

我在Spark with Dataframe

中读取激活的分区时遇到了严重问题

问题如下:我在Hive中有4个分区,其中只激活了2个分区。

show partitions s__patriot.bi_fe__f_car_park;

结果: enter image description here

现在,如果我统计所有记录,结果是52141403;结果是正确的,它有效!

如果我在Spark中读取相同的文件夹,我读错了结果:

val car_park = sqlContext.read.format("com.databricks.spark.avro").load("/data/swamp/patriot/bi_fe__f_car_park/")

enter image description here

计数结果不同! 我调查了一下,发现了问题:在文件夹/ data / swamp / patriot / bi_fe__f_car_park /中有4个子文件夹,其中有数据,但只有2个被激活。

enter image description here

问题是:是否有一种智能解决方法可以“仅使用Spark”读取激活的分区?

0 个答案:

没有答案