谁执行HBase过滤器?

时间:2018-05-10 17:40:01

标签: java apache-spark hbase

哪台机器执行org.apache.hadoop.hbase.filter.Filter

根据documentation,当使用“获取”或“扫描”操作从HBase读取数据时,您可以使用自定义过滤器将结果子集返回给客户端。虽然这不会减少服务器端IO,但它确实减少了网络带宽并减少了客户端需要处理的数据量。

从我看到的火花执行器机器在hbase客户端的后台线程中进行远程调用以查询HBase数据。这些调用很少是本地机器的hbase区域服务器。

所以我担心我的自定义过滤器是否在Spark执行器机器上执行,是否有巨大的网络开销,与文档保证的内容相矛盾,或者它是通过网络转移并在HBase机器上执行的? 我doute所以Filter不是Serializable。接下来的问题是,是否有可能在这里优化任何东西?

0 个答案:

没有答案