在HDFS之上是否有像Apache ActiveMQ这样的解决方案?

时间:2012-12-10 13:51:19

标签: stack storage distributed hdfs web-crawler

我想存储网络抓取工具提取的网页。我没有任何随机访问权限。因此,无论何时我想读取存储的数据,我都会从头到尾阅读。

我们尝试过像HBase这样的解决方案,但HBase最好处之一就是随机访问我们根本不需要的记录。经过1。5年的测试,HBase对我们来说并不稳定。

我想在HDFS之上只有一个堆栈或队列,因为网页的数量大约是10亿。我甚至不想要ActiveMQ的队列行为我只想存储网页,这样我就可以在发生故障时全部阅读它们。

我不想使用Files因为我不想处理文件轮换,文件一致性等问题......

值得一提的是,我们需要HDFS,因此当我们想要将所有存储的数据发送到solr集群并且通过HDFS获得冗余和可用性等好处时,我们可以对数据运行MapReduce作业。

HDFS上是否存在仅存储JMS记录的服务,而没有任何随机访问功能且没有透明的记录视图?

0 个答案:

没有答案