mapreduce可以在共享元组空间(例如:数据库)上有效工作吗?

时间:2010-03-09 08:37:53

标签: mapreduce

我问这个问题,因为我想知道在数据库或共享键值存储上运行mapreduce查询是否有效?

例如,要实现一个网络拖网渔船,它可以对互联网进行索引并计算不同网页上的所有条款,这可以通过数据库作为后端来有效地完成吗?

2 个答案:

答案 0 :(得分:1)

对于WebCrawler反手风格,数据库不是一个合适的解决方案。

您可能想阅读这篇文章。

http://highscalability.com/how-rackspace-now-uses-mapreduce-and-hadoop-query-terabytes-data

谢谢, Ñ

答案 1 :(得分:1)

不确定。 HBase和其他NoSql存储非常适合这项任务。

有关将HBase与MapReduce一起使用的一般概述,请参阅此article

  

HBase是Hadoop数据库。用它   当你需要随机,实时   对大数据的读/写访问权限。   该项目的目标是托管   非常大的表 - 数十亿行   数百万列 - 顶部群集   商品硬件。

     

HBase是一个开源的,分布式的,   以列为导向的存储模型   谷歌的Bigtable:分布式   结构化数据存储系统   Chang等。就像Bigtable一样   利用分布式数据存储   由Google文件系统提供,   HBase提供类似Bigtable的   Hadoop之上的功能。 HBase的   包括:

     

支持的便捷基类   使用HBase的Hadoop MapReduce作业   表格

     

•查询谓词下推通过   服务器端扫描和获取过滤器

     

•实时查询的优化

     

•高性能Thrift网关   •REST-ful Web服务网关   支持XML,Protobuf和二进制文件   数据编码选项

     

•级联源和汇模块

     

•可扩展的基于jruby的(JIRB)外壳

     

•支持通过Hadoop导出指标   度量子系统到文件或Ganglia;   或通过JMX