应用错误收集

时间：2018-10-26 08:47:03

标签： database hadoop machine-learning parallel-processing distributed-computing

我有五台计算机联网。其中一台是主计算机，另外四台是从计算机。

每台从属计算机都有自己的数据集（一个非常大的整数矩阵）。我想在四个不同的从站中运行四个不同的群集程序。然后，将结果带回主计算机以进行进一步处理（例如可视化）。

我最初考虑使用Hadoop。但是，我找不到将上述问题（特别是输出结果）转换为Map Reduce框架的好方法。

是否有任何不错的开源分布式计算框架，可以用来轻松完成上述任务？

谢谢。

答案 0 :(得分：1)

您应该使用YARN来管理多个集群或资源

YARN是企业Hadoop的先决条件，它提供资源管理和一个中央平台，以跨Hadoop集群提供一致的操作，安全性和数据治理工具。

答案 1 :(得分：0)

似乎您已经在每个节点上存储了数据，因此您已经解决了问题的“分布式存储”元素。

由于每个节点的数据集都不同，所以这也不是并行处理问题。

在我看来，您不需要Hadoop或任何其他大数据框架。但是，您可以通过将代码带入数据中来接受Hadoop的哲学。您在每个节点上运行聚类算法，然后以所需的任何方式处理结果。需要警告的是，如果您在每个节点上加载数据和运行聚类算法时也遇到问题，但这是一个不同的问题。