Question

我正在关注此guide以将实时网络流量数据加载到S3中，将Lambda配置为加载到ES域索引中。目前，对于每条记录，我在S3存储桶中创建一个新的json文件，其名称类似于此{GUID} .json，只包含一行。例如：

{"email":"example@test.com","firstname":"Hello","lastname":"World"}

因此，当它上线时，它将在S3存储桶中上传数百万个json文件，然后通过Lambda函数推送到ES。这是加载流数据的正确方法吗？或者我应该开发一个计划的进程来每小时聚合多个记录，例如每个json文件10k记录然后上传到S3存储桶？我觉得这在技术上并不是“实时流媒体”。

有什么建议吗？

Answer 1

您是否尝试过使用AWS Kinesis Firehose将流数据加载到ElasticSearch？

这将消除你努力的大部分需求。