我正在关注此guide以将实时网络流量数据加载到S3中,将Lambda配置为加载到ES域索引中。目前,对于每条记录,我在S3存储桶中创建一个新的json文件,其名称类似于此{GUID} .json,只包含一行。例如:
{"email":"example@test.com","firstname":"Hello","lastname":"World"}
因此,当它上线时,它将在S3存储桶中上传数百万个json文件,然后通过Lambda函数推送到ES。这是加载流数据的正确方法吗?或者我应该开发一个计划的进程来每小时聚合多个记录,例如每个json文件10k记录然后上传到S3存储桶?我觉得这在技术上并不是“实时流媒体”。
有什么建议吗?
答案 0 :(得分:1)
您是否尝试过使用AWS Kinesis Firehose将流数据加载到ElasticSearch?
参考:https://aws.amazon.com/kinesis/firehose/firehose-to-elasticsearch-service/
这将消除你努力的大部分需求。