我读过一些文章,建议Hadoop只是设计用于单个物理位置的集群,而不是广泛分布的节点(例如,从多个站点通过Internet运行分布式集群)。
有没有人有尝试在多个网站上使用Hadoop的真实经验?我会遇到什么样的问题?或者我最好选择不同的框架(例如BOINC)。
答案 0 :(得分:3)
如果在一组相对本地节点上执行与在一组广泛分布的节点上执行之间存在任何差异,则在节点之间来回移动大量数据所需的时间增加。如果您遇到涉及运算,聚合和连接大量数据的问题,那么您必然会在节点之间发送大量数据。这意味着无论您选择什么平台(hadoop,风暴等),您都必须处理这个问题。 BOINC或其他一些基于志愿者的系统可能更便宜,但您的实施仍将受到高数据传输成本的影响。此外,您可能会将节点异构性引入混合中,这将使您的实现开发和调试更加有趣。
顺便说一下,hadoop和BOINC是两种截然不同的动物,可以解决不同的问题。