我有五台计算机联网。其中一台是主计算机,另外四台是从计算机。
每台从属计算机都有自己的数据集(一个非常大的整数矩阵)。我想在四个不同的从站中运行四个不同的群集程序。然后,将结果带回主计算机以进行进一步处理(例如可视化)。
我最初考虑使用Hadoop。但是,我找不到将上述问题(特别是输出结果)转换为Map Reduce框架的好方法。
是否有任何不错的开源分布式计算框架,可以用来轻松完成上述任务?
谢谢。
答案 0 :(得分:1)
答案 1 :(得分:0)
似乎您已经在每个节点上存储了数据,因此您已经解决了问题的“分布式存储”元素。
由于每个节点的数据集都不同,所以这也不是并行处理问题。
在我看来,您不需要Hadoop或任何其他大数据框架。但是,您可以通过将代码带入数据中来接受Hadoop的哲学。您在每个节点上运行聚类算法,然后以所需的任何方式处理结果。需要警告的是,如果您在每个节点上加载数据和运行聚类算法时也遇到问题,但这是一个不同的问题。