应用错误收集

对于WebCrawler反手风格，数据库不是一个合适的解决方案。

您可能想阅读这篇文章。

http://highscalability.com/how-rackspace-now-uses-mapreduce-and-hadoop-query-terabytes-data

谢谢， Ñ

不确定。 HBase和其他NoSql存储非常适合这项任务。

有关将HBase与MapReduce一起使用的一般概述，请参阅此article。

HBase是Hadoop数据库。用它   当你需要随机，实时   对大数据的读/写访问权限。   该项目的目标是托管   非常大的表 - 数十亿行   数百万列 - 顶部群集   商品硬件。

HBase是一个开源的，分布式的，   以列为导向的存储模型   谷歌的Bigtable：分布式   结构化数据存储系统   Chang等。就像Bigtable一样   利用分布式数据存储   由Google文件系统提供，   HBase提供类似Bigtable的   Hadoop之上的功能。 HBase的   包括：

• 支持的便捷基类   使用HBase的Hadoop MapReduce作业   表格

•查询谓词下推通过   服务器端扫描和获取过滤器

•实时查询的优化

•高性能Thrift网关   •REST-ful Web服务网关   支持XML，Protobuf和二进制文件   数据编码选项

•级联源和汇模块

•可扩展的基于jruby的（JIRB）外壳

•支持通过Hadoop导出指标   度量子系统到文件或Ganglia;   或通过JMX

mapreduce可以在共享元组空间（例如：数据库）上有效工作吗？

2 个答案: