是否有人试图跨多个数据中心测试数据节点的性能?特别是在小管道网络上。我似乎无法找到太多关于它的信息,我发现的信息要么是旧的(大约2010年),要么是专有的(看起来像DataStax有一些东西)。我知道Hadoop支持机架识别,但就像我说我还没有看到任何调整多个数据中心系统的文档。
答案 0 :(得分:5)
我尝试过12 x DataNode群集,它以2:1的比例排列,分成两个大约相距120英里的数据中心。 2 x 1GbE管道上数据中心之间的延迟约为4毫秒。
在站点A中配置了2个机架,在站点B中配置了1个机架。每个机架"机架"有4台机器。我们基本上将Site B测试为“DR'现场。复制因子设置为3。
长话短说,它有效,但表现真的非常糟糕。您必须在源上使用压缩,映射和减少输出以缩小写入I / O,如果站点之间的链接用于其他任何内容,则在传输数据时会出现超时。 TCP窗口将有效地限制我们的传输到大约4MBps,而不是1GbE线上的潜在100MBps +。
避免头痛,只需使用distcp作业来复制数据!