有人可以解释parallelpython和hadoop在各种服务器上分发python进程吗?

时间:2011-10-09 07:12:49

标签: python hadoop parallel-processing

我是新手使用多个cpu来处理作业,并且想知道人们是否可以让我知道parallelpython(或任何类型的python模块)与hadoop流的优缺点?

我有一个非常大的cpu密集型进程,我希望分布在多个服务器上。

2 个答案:

答案 0 :(得分:2)

主要区别在于Hadoop擅长处理大数据(数十到数TB的数据)。它提供了一个简单的逻辑框架,称为MapReduce,非常适合数据聚合,以及一个名为HDFS的分布式存储系统。

如果您的输入小于1千兆字节,您可能不想使用Hadoop。

答案 1 :(得分:2)

由于移动数据随着大小变得越来越难;在并行计算方面,数据本地化变得非常重要。 Hadoop作为map / reduce框架可以最大化正在处理的数据的本地化。它还为您提供了一种在群集(hdfs)中有效传播数据的方法。所以基本上,即使您使用其他并行模块,只要您没有将数据本地化在您正在处理的计算机上,或者只要您必须始终跨群集移动数据,您就不会得到并行计算的最大好处。这是hadoop的关键思想之一。