Python中的并行处理选项

时间:2011-10-06 02:37:20

标签: python amazon-web-services parallel-processing

我最近创建了一个python脚本,它执行了一些自然语言处理任务,并在解决我的问题时工作得很好。但花了9个小时。我首先调查使用hadoop将问题分解为步骤,并希望利用我使用Amazon Web Services获得的可扩展并行处理。

但我的一位朋友指出Hadoop确实适用于磁盘上的大量数据存储,您希望执行许多简单的操作。在我的情况下,我有一个相对较小的初始数据集(低100 Mbs),我执行了许多复杂的操作,在此过程中占用了大量内存,并花了很多时间。

我可以在我的脚本中使用哪种框架来利用AWS(或类似服务)上的可扩展集群?

3 个答案:

答案 0 :(得分:0)

Parallel Python是在群集中的多台计算机上分发内容的一种选择。

答案 1 :(得分:0)

This example显示了如何使用单个机器上的进程执行类似MapReduce的脚本。其次,如果可以,请尝试缓存中间结果。我为NLP任务做了这个并且获得了显着的加速。

答案 2 :(得分:0)

我的软件包jug可能非常适合您的需求。没有更多的信息,我不能真正说出代码的样子,但是我设计了它用于sub-hadoop大小的问题。