HBase内连接和协处理器

时间:2012-08-11 03:38:54

标签: hadoop hbase

我打算做一个项目来实现HBase中的所有聚合操作。但我不知道它的难度。我只有6个月的时间来完成那个项目。我应该继续吗?我打算用java做。我知道已经有一些聚合函数了。但现在没有INNER JOIN像查询。我打算实现这种类型的查询。我不知道这是一个大错或虚张声势。

2 个答案:

答案 0 :(得分:1)

我认为技术上我们应该区分两种类型的连接:
a)一张小桌子+一张大桌子。通过小表我的意思是表可以缓存在每个节点的内存中,而不会严重影响集群操作。在这种情况下,应该可以通过在哈希映射中放置小表,迭代大表数据的节点本地部分来使用协处理器,这样就可以生成连接结果。在Hive的术语中,它被称为" map"加入http://www.facebook.com/note.php?note_id=470667928919
b)两张大桌子。我不认为在短时间内获得生产质量是可行的。我可能会说这样的功能是MPP数据库的领域,也是他们IP的重要组成部分。

答案 1 :(得分:0)

HBase肯定比在RDBMS或PIG或Hive等不同的Hadoop技术中使用它更难。