应用错误收集

很容易找到备受好评的参考文献，说HDFS不应该跨越数据中心[1]，而Kafka应该被拉伸[2]。

哪些具体问题导致HDFS不适合被拉伸？

我正在考虑在相距不到50公里的两个DC上扩展HDFS，平均延迟小于1毫秒。我计划在几周内进行一次浸泡测试，具有代表性的读写工作负载，但数量为几百GB - 比集群在几年内存储的数量级还要少。

如果测试成功，那么这提供了什么样的可信度，即拉伸HDFS可能会成功？具体而言，是与可能隐藏的相对较长的主机间延迟相关的问题;这些问题只会暴露在更大量的情况下，例如几百TB？

最后，如果DC间延迟达到峰值，例如几分钟到10毫秒，我可能会遇到什么问题？

[1] Tom White： Hadoop：The Definitive Guide