应用错误收集

我想存储网络抓取工具提取的网页。我没有任何随机访问权限。因此，无论何时我想读取存储的数据，我都会从头到尾阅读。

我们尝试过像HBase这样的解决方案，但HBase最好处之一就是随机访问我们根本不需要的记录。经过1。5年的测试，HBase对我们来说并不稳定。

我想在HDFS之上只有一个堆栈或队列，因为网页的数量大约是10亿。我甚至不想要ActiveMQ的队列行为我只想存储网页，这样我就可以在发生故障时全部阅读它们。

我不想使用Files因为我不想处理文件轮换，文件一致性等问题......

值得一提的是，我们需要HDFS，因此当我们想要将所有存储的数据发送到solr集群并且通过HDFS获得冗余和可用性等好处时，我们可以对数据运行MapReduce作业。

HDFS上是否存在仅存储JMS记录的服务，而没有任何随机访问功能且没有透明的记录视图？