加载表时从凤凰过滤

时间:2016-11-29 16:09:36

标签: apache-spark pyspark phoenix

我想知道这是如何运作的,

df = sqlContext.read \
          .format("org.apache.phoenix.spark") \
          .option("table", "TABLE") \
          .option("zkUrl", "10.0.0.11:2181:/hbase-unsecure") \
          .load()

如果这是加载整个表格,或者它将延迟加载以知道是否将应用过滤。

在第一种情况下,如何在加载spark数据帧之前告诉phoenix过滤表?

由于

1 个答案:

答案 0 :(得分:3)

在执行需要它的操作之前,不会加载数据。所有过滤器都应用在中间:

df.where($"foo" === "bar").count
如果可能,

将被Spark推倒。您可以通过运行explain()

来观看谓词下推的结果