HBase根据我到目前为止所阅读的内容要求安装Hadoop。看起来HBase可以设置为使用现有的Hadoop集群(与其他一些用户共享),还是可以设置为使用专用的Hadoop集群?我想后者将是一个更安全的配置,但我想知道是否有人对前者有任何经验(但后来我不太确定我对HBase设置的理解是否正确)。
答案 0 :(得分:3)
我知道Facebook和其他大型组织出于性能原因将他们的HBase集群(实时访问)与其Hadoop集群(批量分析)分开。集群上的大型MapReduce作业能够影响实时接口的性能,这可能会有问题。
在较小的组织中或在HBase响应时间不一定需要一致的情况下,您可以使用相同的群集。
除了性能问题之外,共存的问题并不多(或任何)。
答案 1 :(得分:0)
我们已经建立了一个强大的1,000核心的现有Hadoop集群。简短的回答:它的工作正常,至少Cloudera CH2 +149.88。但是根据Hadoop版本,您的里程可能会有所不同。
答案 2 :(得分:-1)
在分布式模式下,Hadoop用于其HDFS存储。 HBase将HFile存储在HDFS上,从而从数据节点带来的复制策略和数据位置原则中获益。
RegionServer基本上将处理本地数据,但仍可能需要从其他数据节点获取数据。
希望能帮助您了解为什么以及如何将hadoop与HBase一起使用。