不同集群设置下多客户端场景下的HBase范围扫描性能

时间:2019-10-11 22:06:22

标签: hbase cluster-computing distributed-computing date-range distributed-system

最近,我使用Java HBase客户端和API在选定的HBase表中执行了多个范围扫描,并使用Java线程模拟了多客户端并发访问。例如,100个并发用户基于不同的开始和结束行键读取(执行范围扫描)(100个客户端读取100个不同范围),但是返回相同的“数量”结果。我在两个不同的群集设置中执行了此操作:4节点群集和8节点群集。两个不同群集的范围扫描获得的结果保持不变(两个群集具有相同的硬件配置)。对于更多的并发用户,这保持不变。对于每一个并发用户,我增加了范围扫描大小(即1s(秒),5s(秒),10s,30s,60s)。在所有情况下,两个群集中的相应范围查询产生相同的查询响应时间。

我在互联网上寻找对此的可能解释。但是我找不到很好的资源可以解释这种现象。我期望范围查询性能会随着大量计算群集的增加而提高。

我确实检查了两个群集中的数据分布,并注意到,在8节点群集中,数据分布在所有4个节点群集中的所有8个节点中,其中只有4个节点。从理论上讲,我希望将8节点群集的增益提高到4节点群集的2倍。

我希望您可以在此处共享链接和资源,在这里我可以阅读和理解HBase的这种行为。我唯一的论据是,网络中存在瓶颈,但我认为这是一个幼稚的论据。

0 个答案:

没有答案