我在Spark with Dataframe
中读取激活的分区时遇到了严重问题问题如下:我在Hive中有4个分区,其中只激活了2个分区。
show partitions s__patriot.bi_fe__f_car_park;
现在,如果我统计所有记录,结果是52141403;结果是正确的,它有效!
如果我在Spark中读取相同的文件夹,我读错了结果:
val car_park = sqlContext.read.format("com.databricks.spark.avro").load("/data/swamp/patriot/bi_fe__f_car_park/")
计数结果不同! 我调查了一下,发现了问题:在文件夹/ data / swamp / patriot / bi_fe__f_car_park /中有4个子文件夹,其中有数据,但只有2个被激活。
问题是:是否有一种智能解决方法可以“仅使用Spark”读取激活的分区?