Elastisearch-Hadoop如何在spark程序中进行批量搜索

时间:2017-09-07 02:18:21

标签: hadoop apache-spark elasticsearch elasticsearch-hadoop

我正在编写一个火花程序,它基本上是一个字符串的RDD。我需要做的是基本上为每个字符串创建一个查询,并根据弹性搜索索引进行查询。所以基本上Query对字符串会有所不同。我想使用elasticsearch-hadoop进行搜索,以便我可以进行优化。 RDD可能很大,我正在寻找任何可能的优化

例如,RDD是List [India,IBM Company,Netflix,Lebron James]。我们将在所有这些条款上创建更多类似搜索,并在索引维基百科上搜索并获取结果。例如,我们将为印度和IBM以及Netflix和Lebron James创建另外四个这样的查询,并为他们取回点击量

我确实可以解决使用批量搜索的HTTP Rest Api调用来获取命中的问题,但我会自行进行优化。我想看看我们是否可以使用火花弹性连接器来创建查询并以优化的方式进行搜索

1 个答案:

答案 0 :(得分:0)

此用例是不可能的。弹性搜索基本上假定一个或多个查询,但不适用于n =批量查询模式