我想知道这是如何运作的,
df = sqlContext.read \
.format("org.apache.phoenix.spark") \
.option("table", "TABLE") \
.option("zkUrl", "10.0.0.11:2181:/hbase-unsecure") \
.load()
如果这是加载整个表格,或者它将延迟加载以知道是否将应用过滤。
在第一种情况下,如何在加载spark数据帧之前告诉phoenix过滤表?
由于
答案 0 :(得分:3)
在执行需要它的操作之前,不会加载数据。所有过滤器都应用在中间:
df.where($"foo" === "bar").count
如果可能,将被Spark推倒。您可以通过运行explain()