在Hadoop或分布式计算框架中管理多个集群

时间:2018-10-26 08:47:03

标签: database hadoop machine-learning parallel-processing distributed-computing

我有五台计算机联网。其中一台是主计算机,另外四台是从计算机。

每台从属计算机都有自己的数据集(一个非常大的整数矩阵)。我想在四个不同的从站中运行四个不同的群集程序。然后,将结果带回主计算机以进行进一步处理(例如可视化)。

我最初考虑使用Hadoop。但是,我找不到将上述问题(特别是输出结果)转换为Map Reduce框架的好方法。

是否有任何不错的开源分布式计算框架,可以用来轻松完成上述任务?

谢谢。

2 个答案:

答案 0 :(得分:1)

您应该使用YARN来管理多个集群或资源

YARN是企业Hadoop的先决条件,它提供资源管理和一个中央平台,以跨Hadoop集群提供一致的操作,安全性和数据治理工具。

Reference

答案 1 :(得分:0)

似乎您已经在每个节点上存储了数据,因此您已经解决了问题的“分布式存储”元素。

由于每个节点的数据集都不同,所以这也不是并行处理问题。

在我看来,您不需要Hadoop或任何其他大数据框架。但是,您可以通过将代码带入数据中来接受Hadoop的哲学。您在每个节点上运行聚类算法,然后以所需的任何方式处理结果。需要警告的是,如果您在每个节点上加载数据和运行聚类算法时也遇到问题,但这是一个不同的问题。