map reduce用于连接数据集?

时间:2012-08-18 11:09:57

标签: mapreduce

我有三种不同的解决方案,我用document_ids存储文档(搜索引擎,nosql数据库和自行开发的语义索引应用程序)。

我正在针对所有不同的解决方案运行查询,并希望使用类似于SQL JOIN的东西来合并它们。这意味着我有时可能需要在document_id上加入3个或更多不同的数据集。

你知道在Hadoop上使用Map Reduce或类似的东西是解决这个问题的最佳方法吗?这些数据集可以包含1 document_id到100 000的任何位置。

Thanx你的时间!

2 个答案:

答案 0 :(得分:0)

对于像这样的小型数据集 - 几乎任何东西都可行。特别是 - 我建议使用内存系统,因为所有数据都可以很容易地放入内存中。 GridGain就是这样一个解决方案(完整的In-Memory MapReduce,SQL等支持许多其他东西)。

答案 1 :(得分:0)

如果在加入文档之前需要在文档处理期间应用大量CPU,Hadoop是很好的。在相同的作业处理文档中(在MAP函数中),您可以使用混洗过程作为连接引擎相对容易。
与此同时,100K项目的简单连接不应该需要更多适度的RDBMS。