答案 0 :(得分:2)
我认为设置一点可能但不是微不足道 - 也许CDH3决赛将在发布时包含集成。
优点:Hive查询hbase。想想连接和一种简单的方法来对HBase数据进行聚合和简单操作。
为什么不使用Hive而不打扰HBase? HBase为您提供可扩展的存储基础架构,使数据保持在线。 StumbleUpon使用HBase作为他们的实时网站。 Hive不是实时查询引擎,因此其数据存储不能用于类似目的。 Hase over HBase为您提供了两个世界的好处。
答案 1 :(得分:0)
目前有一个补丁可以在HBase和Hive之间加载数据。你可以在这里找到它:
http://wiki.apache.org/hadoop/Hive/HBaseIntegration
实现开销看起来很高。
在HBase表上运行扫描并保存到外部文件然后将其导入Hive以进行数据操作可能更容易。 (这也很麻烦,但如果你定期这样做可以编写脚本。)这是我目前正在处理的解决方案。我会告诉你它是怎么回事。
至于为什么你会选择HBase over Hive,它们实际上并不是可以互换的。 HBase是一种构建在Hadoop之上的高度可扩展的数据存储,几乎不支持数据分析。另一方面,Hive不用于在生产环境中存储数据,而是可以非常轻松地对大量数据运行特定查询。