应用错误收集

如何快速将S3存储桶中的json文件导入到AWS Elasticsearch中？

时间：2019-04-14 13:45:47

标签： python elasticsearch amazon-s3 aws-lambda

当前内容：
1. S3存储桶中有一些json类型文件。（约3.7TB）
2.AWS Elasticsearch

需求：
将此json文件导入AWS Elasticsearch。

当前工作：
1.起初，我以为AWS提供了这样的功能，但是当我查看一些信息（Google搜索，AWS公共文档）时，我没有找到快捷方式功能，该怎么做。

2。我想分析这些json数据，例如，某种类型的内容的比例，取出某种类型的值，除了AWS Elasticsearch之外，还有更好的解决方案吗？ EMR还是其他？

1 个答案:

答案 0 :(得分：0)

最简单的解决方案是使用AWS Athena在S3中直接对数据运行SQL查询。您甚至可以将AWS Glue用于crawl your data and catalog it for Athena。雅典娜公开了一个您可以connect to using JDBC or other SQL connector libraries的端点。

但是，Athena查询可能需要几秒钟到几分钟，这取决于您拥有的数据量，数据的存储方式以及运行的查询类型。如果您需要更快的查询响应时间，则可能要使用ElasticSearch。要将数据放入ElasticSearch集群，您可以对trigger a lambda function使用S3 put个事件，该事件会将文件加载到ElasticSearch中。

编辑：对于现有数据，您可以使用Database Migration Service移动数据from S3和into ElasticSearch。