Spark-动态Elasticsearch查询

时间:2019-04-29 23:37:29

标签: apache-spark elasticsearch

有一些过滤条件可以从elasticsearch数据中获取子集的计数。由于elasticsearch数据大小可能大于spark的内存大小,因此我决定不将其数据加载到spark内存中,而是针对每个过滤条件进行动态查询。 (我认为使用Elasticsearch查询获取文档的数量可能比依赖Spark内存更快)。问题在于,用于过滤Elasticsearch数据的elasticsearch查询必须位于spark rdd之内,如下所示。

conditionCountRDD = conditionRDD( condition=> /* elasticsearch query with condition */)

这是在Spark rdd中进行Elasticsearch查询的正确方法吗?如果是这样,我应该使用spark会话执行每个查询吗?还是有更好的方法做到这一点?

0 个答案:

没有答案