ipcluster - 不能启动超过110个ipengine - 或者其中一些可能会死亡

时间:2014-06-23 13:56:35

标签: ipython-parallel

我很难让ipcluster启动我要求的所有ipengine。它似乎是某种超时问题。我在具有192个处理器的Linux集群上使用IPython 2.0。我运行一个本地ipcontroller,并使用SSH在我的12个节点上启动ipengines。这不是一个配置问题(至少我认为不是)因为我运行大约110个ipengines没有问题。当我尝试更大量时,其中一些似乎在启动期间死亡,我的意思是其中一些 - 我的最终数字变化了一点。 ipcluster报告所有引擎都已启动。我能找到的唯一麻烦迹象(除了没有使用所有请求的引擎之外)在一些ipengine日志中如下:

2014-06-20 16:42:13.302 [IPEngineApp] Loading url_file u'.ipython/profile_ssh/security/ipcontroller-engine.json'
2014-06-20 16:42:13.335 [IPEngineApp] Registering with controller at tcp://10.1.0.253:55576
2014-06-20 16:42:13.429 [IPEngineApp] Starting to monitor the heartbeat signal from the hub every 3010 ms.
2014-06-20 16:42:13.434 [IPEngineApp] Using existing profile dir: u'.ipython/profile_ssh'
2014-06-20 16:42:13.436 [IPEngineApp] Completed registration with id 49
2014-06-20 16:42:25.472 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 18:09:12.782 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 19:14:22.760 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 20:00:34.969 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).

我做了一些谷歌搜索,看看我是否能找到一些智慧,而我唯一遇到的是http://permalink.gmane.org/gmane.comp.python.ipython.devel/12228。作者似乎认为这是一种暂停。

我也尝试过三倍(90秒而不是默认值30)IPClusterStart.early_shutdown和IPClusterEngines.early_shutdown时间没有任何运气。

感谢 - 提前 - 获取有关充分利用我的群集的任何指示。

1 个答案:

答案 0 :(得分:1)

当我尝试执行ipcluster start --n = 200时,我得到:OSError:[Errno 24]打开文件太多
这也可能是你发生的事情。尝试提高操作系统的打开文件限制。