Question

我想知道这是如何运作的，

df = sqlContext.read \
          .format("org.apache.phoenix.spark") \
          .option("table", "TABLE") \
          .option("zkUrl", "10.0.0.11:2181:/hbase-unsecure") \
          .load()

如果这是加载整个表格，或者它将延迟加载以知道是否将应用过滤。

在第一种情况下，如何在加载spark数据帧之前告诉phoenix过滤表？

由于

Answer 1

在执行需要它的操作之前，不会加载数据。所有过滤器都应用在中间：

df.where($"foo" === "bar").count

如果可能，

将被Spark推倒。您可以通过运行explain()

来观看谓词下推的结果

加载表时从凤凰过滤

1 个答案: