SPARK的弹性搜索连接器

时间:2019-12-17 15:20:20

标签: elasticsearch connector

用例: 应用程序使用spark处理数据5分钟,要处理的数据可能是数据存储中数十万条记录的数据。 数据存储的选择是Elastic Search。

问题: 我们在Elasticsearch中是否有用于火花的连接器,类似于MongoDB中的连接器?

https://www.mongodb.com/products/spark-connector

调查: 我花了很多时间,但是我能找到的最好的方法是使用带有滚动的搜索API的解决方案(我们可以在给定的数字间隔内获取有限数量的记录),但这不适合我的用例。

请注意,我的弹性搜索将包含JSON数据,我们不想保存RDD。 如下所述

https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html

1 个答案:

答案 0 :(得分:0)

您可以将spark连接器用于ES,并且数据不会以任何二进制形式保存-但是RDD / Dataframe会序列化为JSON,这就是Elasticsearch的内容。