我问这个问题,因为我想知道在数据库或共享键值存储上运行mapreduce查询是否有效?
例如,要实现一个网络拖网渔船,它可以对互联网进行索引并计算不同网页上的所有条款,这可以通过数据库作为后端来有效地完成吗?
答案 0 :(得分:1)
对于WebCrawler反手风格,数据库不是一个合适的解决方案。
您可能想阅读这篇文章。
http://highscalability.com/how-rackspace-now-uses-mapreduce-and-hadoop-query-terabytes-data
谢谢, Ñ
答案 1 :(得分:1)
不确定。 HBase和其他NoSql存储非常适合这项任务。
有关将HBase与MapReduce一起使用的一般概述,请参阅此article。
HBase是Hadoop数据库。用它 当你需要随机,实时 对大数据的读/写访问权限。 该项目的目标是托管 非常大的表 - 数十亿行 数百万列 - 顶部群集 商品硬件。
HBase是一个开源的,分布式的, 以列为导向的存储模型 谷歌的Bigtable:分布式 结构化数据存储系统 Chang等。就像Bigtable一样 利用分布式数据存储 由Google文件系统提供, HBase提供类似Bigtable的 Hadoop之上的功能。 HBase的 包括:
• 支持的便捷基类 使用HBase的Hadoop MapReduce作业 表格
•查询谓词下推通过 服务器端扫描和获取过滤器
•实时查询的优化
•高性能Thrift网关 •REST-ful Web服务网关 支持XML,Protobuf和二进制文件 数据编码选项
•级联源和汇模块
•可扩展的基于jruby的(JIRB)外壳
•支持通过Hadoop导出指标 度量子系统到文件或Ganglia; 或通过JMX