数据帧分区修剪

时间:2017-03-25 03:13:22

标签: apache-spark pyspark

我有一个两个表(table_a,table_b)配置单元,它由build_date(格式为YYYYMMDD的整数)分区,并且它是镶木地板和snappy压缩的。 我在我的pyspark程序中使用此表作为

hiveCtx = HiveContext(sc)
df1 = hiveCtx.table('table_a').filter(func.col('build_date') == 20170101)
df2 = hiveCtx.table('table_b')
df3 = df1.join(df2, df1.build_date == df2.build_date)

当我执行df3.explain()时,它会读取table_b中的所有分区。如何让它只读取特定的分区?

我还设置了hive属性集(' spark.sql.hive.convertMetastoreParquet',' false')

0 个答案:

没有答案