hadoop - 适用于各种属性聚合的最佳技术堆栈

适用于各种属性聚合的最佳技术堆栈

时间：2013-03-13 13:24:46

标签： hadoop amazon-web-services amazon-s3 amazon-redshift elastic-map-reduce

我们正在开发一个平台，用于对图表中的实体流进行建模。系统必须回答这样的问题：具有这些属性的实体有多少位于图上的给定节点，节点上的流入量，节点上的流出量等等。流数据以流的形式馈送到系统。我们正在考虑打破时间桶中的流数据（比如5分钟），并根据不同的属性预先计算各种聚合，并将聚合存储在DynamoDB中以提供查询。

关于这一点，我们正在评估以下选项：

EMR：将流数据放入AWS -S3 / DynamoDB运行Map Reduce / hive作业
将最新数据放入AWS-RDS，通过sql计算聚合
Akka：这是一个通过Actors构建分布式应用程序的框架和消息传递。

如果有人使用过类似用例或使用过上述任何技术，请告诉我哪种方法最适合我们的用例。

2 个答案:

答案 0 :(得分：0)

我已经使用EMR处理S3中的数据......效果很好。最好的部分是你可以调整适合工作量的各种尺寸的hadoop簇。

您可能需要查看Storm进行流处理

我还在这里收集大数据工具列表：http://hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

答案 1 :(得分：0)

最终的解决方案采用了AWS Redshift，驱动原因是需要高速数据摄取，Redshift通过COPY命令提供。

Hadoop是为了有效地存储数据而构建的，但它并不保证接收亚秒级的sla，也不提供SLA以确定何时数据可用于MR作业，这是我们没有的主要原因一般来说，请使用EMR或Hadoop。