我想存储网络抓取工具提取的网页。我没有任何随机访问权限。因此,无论何时我想读取存储的数据,我都会从头到尾阅读。
我们尝试过像HBase这样的解决方案,但HBase最好处之一就是随机访问我们根本不需要的记录。经过1。5年的测试,HBase对我们来说并不稳定。
我想在HDFS之上只有一个堆栈或队列,因为网页的数量大约是10亿。我甚至不想要ActiveMQ的队列行为我只想存储网页,这样我就可以在发生故障时全部阅读它们。
我不想使用Files因为我不想处理文件轮换,文件一致性等问题......
值得一提的是,我们需要HDFS,因此当我们想要将所有存储的数据发送到solr集群并且通过HDFS获得冗余和可用性等好处时,我们可以对数据运行MapReduce作业。
HDFS上是否存在仅存储JMS记录的服务,而没有任何随机访问功能且没有透明的记录视图?