python - Python中的并行处理选项

时间：2011-10-06 02:37:20

标签： python amazon-web-services parallel-processing

我最近创建了一个python脚本，它执行了一些自然语言处理任务，并在解决我的问题时工作得很好。但花了9个小时。我首先调查使用hadoop将问题分解为步骤，并希望利用我使用Amazon Web Services获得的可扩展并行处理。

但我的一位朋友指出Hadoop确实适用于磁盘上的大量数据存储，您希望执行许多简单的操作。在我的情况下，我有一个相对较小的初始数据集（低100 Mbs），我执行了许多复杂的操作，在此过程中占用了大量内存，并花了很多时间。

我可以在我的脚本中使用哪种框架来利用AWS（或类似服务）上的可扩展集群？

答案 0 :(得分：0)

Parallel Python是在群集中的多台计算机上分发内容的一种选择。

答案 1 :(得分：0)

This example显示了如何使用单个机器上的进程执行类似MapReduce的脚本。其次，如果可以，请尝试缓存中间结果。我为NLP任务做了这个并且获得了显着的加速。

答案 2 :(得分：0)

我的软件包jug可能非常适合您的需求。没有更多的信息，我不能真正说出代码的样子，但是我设计了它用于sub-hadoop大小的问题。