python - 有人可以解释parallelpython和hadoop在各种服务器上分发python进程吗？

有人可以解释parallelpython和hadoop在各种服务器上分发python进程吗？

时间：2011-10-09 07:12:49

标签： python hadoop parallel-processing

我是新手使用多个cpu来处理作业，并且想知道人们是否可以让我知道parallelpython（或任何类型的python模块）与hadoop流的优缺点？

我有一个非常大的cpu密集型进程，我希望分布在多个服务器上。

2 个答案:

答案 0 :(得分：2)

主要区别在于Hadoop擅长处理大数据（数十到数TB的数据）。它提供了一个简单的逻辑框架，称为MapReduce，非常适合数据聚合，以及一个名为HDFS的分布式存储系统。

如果您的输入小于1千兆字节，您可能不想使用Hadoop。

答案 1 :(得分：2)

由于移动数据随着大小变得越来越难;在并行计算方面，数据本地化变得非常重要。 Hadoop作为map / reduce框架可以最大化正在处理的数据的本地化。它还为您提供了一种在群集（hdfs）中有效传播数据的方法。所以基本上，即使您使用其他并行模块，只要您没有将数据本地化在您正在处理的计算机上，或者只要您必须始终跨群集移动数据，您就不会得到并行计算的最大好处。这是hadoop的关键思想之一。