为什么HDFS集群不能在DC之间延伸?

时间:2017-07-22 00:10:07

标签: hadoop apache-kafka hdfs fault-tolerance disaster-recovery

很容易找到备受好评的参考文献,说HDFS不应该跨越数据中心[1],而Kafka应该被拉伸[2]。

哪些具体问题导致HDFS不适合被拉伸?

我正在考虑在相距不到50公里的两个DC上扩展HDFS,平均延迟小于1毫秒。我计划在几周内进行一次浸泡测试,具有代表性的读写工作负载,但数量为几百GB - 比集群在几年内存储的数量级还要少。

如果测试成功,那么这提供了什么样的可信度,即拉伸HDFS可能会成功?具体而言,是与可能隐藏的相对较长的主机间延迟相关的问题;这些问题只会暴露在更大量的情况下,例如几百TB?

最后,如果DC间延迟达到峰值,例如几分钟到10毫秒,我可能会遇到什么问题?

[1] Tom White: Hadoop:The Definitive Guide

[2] https://www.confluent.io/blog/design-and-deployment-considerations-for-deploying-apache-kafka-on-aws/

0 个答案:

没有答案