AWS ElasticSearch正在加载流数据

时间:2016-09-14 06:53:20

标签: json amazon-web-services amazon-s3 aws-lambda amazon-elasticsearch

我正在关注此guide以将实时网络流量数据加载到S3中,将Lambda配置为加载到ES域索引中。目前,对于每条记录,我在S3存储桶中创建一个新的json文件,其名称类似于此{GUID} .json,只包含一行。例如:

{"email":"example@test.com","firstname":"Hello","lastname":"World"}

因此,当它上线时,它将在S3存储桶中上传数百万个json文件,然后通过Lambda函数推送到ES。这是加载流数据的正确方法吗?或者我应该开发一个计划的进程来每小时聚合多个记录,例如每个json文件10k记录然后上传到S3存储桶?我觉得这在技术上并不是“实时流媒体”。

有什么建议吗?

1 个答案:

答案 0 :(得分:1)

您是否尝试过使用AWS Kinesis Firehose将流数据加载到ElasticSearch?

参考:https://aws.amazon.com/kinesis/firehose/firehose-to-elasticsearch-service/

这将消除你努力的大部分需求。