用例是:我需要将所有数据从HDFS集群复制到具有相同主服务器和从服务器集的另一个集群,我将释放以前的集群并开始在新集群中运行我的作业。
我已经阅读过关于Apache Falcon和Wandisco不间断Hadoop的内容,这有助于这种镜像。但是当我将它们作为我的生态系统的一部分时,我不确定它们提供的其他优势(这将更有利? - 这将取决于我的用例,但我想知道是否有特别的) 。可以根据你对它们的经验,提供Falcon与Wandisco的类比吗?
答案 0 :(得分:4)
(免责声明:我在WANdisco工作。)
我的观点是产品是互补的。 Falcon除了数据传输之外还做很多事情,比如设置数据工作流程阶段。 WANdisco的产品进行主动 - 主动数据复制(这意味着可以从源群集和目标群集中等效地使用数据)。
在您的使用案例中,如果您使用Falcon,那么您实际上正在使用DistCP将数据复制到新群集。您可能会进行初始传输以获取大部分数据,然后在某些时候您需要进行最终切换以获取所有增量,然后您可以让应用程序在新群集上运行。
如果您使用WANdisco的产品进行数据传输,则可以在复制引擎使用Paxos算法协调更改的同时使用两个群集。这可能会使增量迁移变得更容易。
您会发现连续主动 - 主动复制与DistCP之间存在差异的其他情况包括备份和灾难恢复以及摄取到多个数据中心。希望有所帮助。