我希望以非常高的频率记录时间序列数据。我想知道是否有一个优雅的无服务器解决方案,允许我存储,并对实时数据做出反应。
我想使用存储的数据来创建统计模型,然后我想基于这些模型实时处理新数据。
AWS Kinesis流似乎符合要求 - 但是,我不确定它是否仅用于实时响应,还是它还收集了我可以离线使用以构建模型的历史数据。
Google DataFlow和Pub / Sub似乎也很相关,但不确定它是否适用于上述情况。
答案 0 :(得分:1)
如果您使用AWS,则可以使用 Kinesis 和 EMR 来实现目标。首先,您可以在完全托管的 Kinesis Firehose 中创建投放流,并将其路由到 S3或Redshift 以收集历史数据。
一旦您的数据在S3上,您可以通过将S3存储桶指向EMR作业来处理s3接收的新数据,从而进行统计分析。有关更多信息,请阅读this文章。
在EMR管理的hadoop框架中,如果愿意,可以设置开源R和RStudio 进行统计分析。这是guide。
答案 1 :(得分:1)
我们使用Kinesis和Flink(来自apache)完成了这项工作。 Flink是一个非常可扩展的解决方案。