我是新手使用多个cpu来处理作业,并且想知道人们是否可以让我知道parallelpython(或任何类型的python模块)与hadoop流的优缺点?
我有一个非常大的cpu密集型进程,我希望分布在多个服务器上。
答案 0 :(得分:2)
主要区别在于Hadoop擅长处理大数据(数十到数TB的数据)。它提供了一个简单的逻辑框架,称为MapReduce,非常适合数据聚合,以及一个名为HDFS的分布式存储系统。
如果您的输入小于1千兆字节,您可能不想使用Hadoop。
答案 1 :(得分:2)
由于移动数据随着大小变得越来越难;在并行计算方面,数据本地化变得非常重要。 Hadoop作为map / reduce框架可以最大化正在处理的数据的本地化。它还为您提供了一种在群集(hdfs)中有效传播数据的方法。所以基本上,即使您使用其他并行模块,只要您没有将数据本地化在您正在处理的计算机上,或者只要您必须始终跨群集移动数据,您就不会得到并行计算的最大好处。这是hadoop的关键思想之一。