如何快速将S3存储桶中的json文件导入到AWS Elasticsearch中?

时间:2019-04-14 13:45:47

标签: python elasticsearch amazon-s3 aws-lambda

当前内容:
1. S3存储桶中有一些json类型文件。 (约3.7TB)
2.AWS Elasticsearch

需求:
将此json文件导入AWS Elasticsearch。

当前工作:
1.起初,我以为AWS提供了这样的功能,但是当我查看一些信息(Google搜索,AWS公共文档)时,我没有找到快捷方式功能,该怎么做。

2。我想分析这些json数据,例如,某种类型的内容的比例,取出某种类型的值,除了AWS Elasticsearch之外,还有更好的解决方案吗? EMR还是其他?

1 个答案:

答案 0 :(得分:0)

最简单的解决方案是使用AWS Athena在S3中直接对数据运行SQL查询。您甚至可以将AWS Glue用于crawl your data and catalog it for Athena。雅典娜公开了一个您可以connect to using JDBC or other SQL connector libraries的端点。

但是,Athena查询可能需要几秒钟到几分钟,这取决于您拥有的数据量,数据的存储方式以及运行的查询类型。如果您需要更快的查询响应时间,则可能要使用ElasticSearch。要将数据放入ElasticSearch集群,您可以对trigger a lambda function使用S3 put个事件,该事件会将文件加载到ElasticSearch中。

编辑:对于现有数据,您可以使用Database Migration Service移动数据from S3into ElasticSearch