Storm框架应用程序

时间:2015-10-07 11:12:56

标签: hadoop apache-spark apache-storm spark-streaming apache-samza

我使用Hadoop构建了一个在分布式环境中搜索类似图像存储的应用程序。但是Hadoop不支持实时处理,这就是为什么响应时间很长。我知道Storm是大数据分析应用程序的另一个框架。但我很困惑我们是否可以使用Storm来实现这种应用程序。

有没有人建议哪种应用程序有效使用Storm框架。

1 个答案:

答案 0 :(得分:1)

  

Storm是一个非常可扩展,快速,容错的开源系统,用于分布式计算,特别关注流处理。 Storm擅长事件处理和增量计算,通过数据流实时计算滚动指标

事件流处理是Storm的主要优势。

通常Hadoop用于批处理。但 Storm 是实时处理的Hadoop,而 Spark 是针对内存数据存储的所有人的分布式处理

查看此Storm and SparkStack Comparison 链接

enter image description here

修改

我对此问题的解决方案

1)将图像存储在CMS(内容管理系统)中,CDN分布在多个网络中,而不是 HDFS NoSQL 数据库)

2)在HBase表中存储图像ID,图像名称,MD5SUM,图像位置元信息

3)使用Spark& HBase用于图像数据处理,例如通过选中 MD5SUM

删除重复的图像