IPython并行计算与pyzmq进行集群计算

时间:2014-07-27 00:12:28

标签: python parallel-processing zeromq pyzmq ipython-parallel

我目前正在研究用C编写的一些模拟代码,它在不同的远程机器上运行。当C部分完成时,我希望通过使用python模拟api和某种作业队列系统扩展它来简化我的工作,该系统应该执行以下操作:

1.specifiy一组参数,在这些参数上应该进行模拟并将它们放入主机的队列中

2.工人在远程机器上执行模拟

3.将结果返回给主机

我查看了完成此任务的不同框架,我的第一选择归结为IPython.parallel。我查看了文档,从我测试的内容看起来很容易使用。我的方法是使用负载平衡视图,如

中所述

http://ipython.org/ipython-doc/dev/parallel/parallel_task.html#creating-a-loadbalancedview-instance

但我没看到的是:

  • 会发生什么,即如果ipcontroller崩溃,我的工作队列是否已经消失?
  • 如果远程计算机崩溃会发生什么?是否有某种错误处理?

由于我运行相对较长的模拟(1-2周),如果系统的某些部分崩溃,我不希望我的模拟失败。那么有可能在IPython.parallel中处理这个问题吗?

我的第二种方法是使用pyzmq并从头开始实现jobystem。 在这种情况下,这种情况下最好的zmq模式是什么?

最后但并非最不重要的是,这种情况可能有更好的框架吗?

2 个答案:

答案 0 :(得分:0)

幕后背后的内容是关于如何在(并行化的)数字运算管道旁安排工作包流程的更复杂的观点。

成为许多 CPU核心周的工作包,

作为工作的lumpsum量高于成千上万的CPU核心时间,原则是相似的并遵循常识。

主要功能

  • 可扩展性所涉及的 所有 资源的计算性能(理想情况下为线性>)
  • 轻松任务提交角色
  • 提交的任务的
  • 错误恢复(理想情况下是自动自我修复
  • 可行访问/使用足够资源池的TCO成本(前期合作,经常性合作,适应$ co $ ts,$ $ ts of $ peed)

解决方案

  • 基于分布式大规模并行调度程序的自愈计算引擎的home-brew架构

  • 重复使用可用的基于网格的计算资源

基于自己的经验来解决在庞大的参数SetVectorSPACE(无法将其解组为任何平凡的GPU并行化方案)中重复运行数值密集优化问题的需求,第二种方法的选择已被验证为更多在另一次审判中重新发明轮子,而不是企图燃烧数十人*年。

在学术环境中,人们可以更容易地获得对资源池的可接受访问权以处理工作包,而商业实体可以根据其可接受的预算阈值获得相同的资源。


enter image description here

答案 1 :(得分:0)

我的直觉是建议为此推出自己的解决方案,因为就像你说的那样,你依赖于IPython而不会崩溃。

我会在每个监听run命令的节点上运行一个简单的python服务。当它收到一个它启动你的C程序。但是,我建议你确保C程序是true Unix daemon,所以当它运行时它完全脱离python。这样,如果您的节点python实例崩溃,如果C程序成功执行,您仍然可以获取数据。让C程序将输出数据写入文件或数据库,并在任务完成时将“已完成”写入“状态”或类似的东西。 python服务应该监视该文件,并在完成时指示它应该检索数据并将其发送回服务器。

这种设计的核心思想是尽可能减少可能的故障点。只要C程序没有崩溃,您仍然可以以这种或那种方式获取数据。至于处理系统崩溃,网络断开等等,这取决于你。