我使用Hadoop构建了一个在分布式环境中搜索类似图像存储的应用程序。但是Hadoop不支持实时处理,这就是为什么响应时间很长。我知道Storm是大数据分析应用程序的另一个框架。但我很困惑我们是否可以使用Storm来实现这种应用程序。
有没有人建议哪种应用程序有效使用Storm框架。
答案 0 :(得分:1)
Storm是一个非常可扩展,快速,容错的开源系统,用于分布式计算,特别关注流处理。 Storm擅长事件处理和增量计算,通过数据流实时计算滚动指标
事件流处理是Storm的主要优势。
通常Hadoop用于批处理。但 Storm 是实时处理的Hadoop,而 Spark 是针对内存数据存储的所有人的分布式处理
查看此Storm and Spark和Stack Comparison 链接
修改强>
我对此问题的解决方案
1)将图像存储在CMS(内容管理系统)中,CDN分布在多个网络中,而不是 HDFS 或 NoSQL 数据库)
2)在HBase表中存储图像ID,图像名称,MD5SUM,图像位置元信息
3)使用Spark& HBase用于图像数据处理,例如通过选中 MD5SUM
删除重复的图像