关闭Dask LocalCluster的“正确”方法是什么?

时间:2018-11-20 14:13:28

标签: python dask dask-distributed

我正在尝试使用LocalCluster在笔记本电脑上使用dask-distributed,但是我仍然没有找到一种方法来关闭我的应用程序而不会引发一些警告或使用matplotlib触发一些奇怪的迭代(我正在使用tkAgg后端)

例如,如果我以此顺序关闭客户端和群集,则tk无法以适当的方式从内存中删除图像,并且出现以下错误:

Traceback (most recent call last):
  File "/opt/Python-3.6.0/lib/python3.6/tkinter/__init__.py", line 3501, in __del__
    self.tk.call('image', 'delete', self.name)
RuntimeError: main thread is not in main loop

例如,以下代码生成此错误:

from time import sleep
import numpy as np
import matplotlib.pyplot as plt
from dask.distributed import Client, LocalCluster

if __name__ == '__main__':
    cluster = LocalCluster(
        n_workers=2,
        processes=True,
        threads_per_worker=1
    )
    client = Client(cluster)

    x = np.linspace(0, 1, 100)
    y = x * x
    plt.plot(x, y)

    print('Computation complete! Stopping workers...')
    client.close()
    sleep(1)
    cluster.close()

    print('Execution complete!')

sleep(1)行使该问题更有可能出现,因为并非每次执行时都会发生。

我尝试停止执行的任何其他组合(避免关闭客户端,避免关闭群集,避免同时关闭两者)都会产生龙卷风问题。通常是以下

tornado.application - ERROR - Exception in Future <Future cancelled> after timeout

什么是停止本地群集和客户端的正确组合?我想念什么吗?

这些是我正在使用的库:

  • python 3. [6,7] .0
  • 龙卷风5.1.1
  • 黄昏0.20.0
  • 分布式1.24.0
  • matplotlib 3.0.1

谢谢您的帮助!

2 个答案:

答案 0 :(得分:1)

根据我们的经验,最好的方法是使用上下文管理器,例如:

import numpy as np
import matplotlib.pyplot as plt
from dask.distributed import Client, LocalCluster 

if __name__ == '__main__':
    cluster = LocalCluster(
    n_workers=2,
    processes=True,
    threads_per_worker=1
    )
    with Client(cluster) as client:
        x = np.linspace(0, 1, 100)
        y = x * x
        plt.plot(x, y)
        print('Computation complete! Stopping workers...')

    print('Execution complete!')

答案 1 :(得分:0)

扩展skibee的答案,这是我使用的模式。它设置一个临时LocalCluster,然后将其关闭。当必须以不同的方式并行化代码的不同部分(例如,一个需要线程,而另一个需要进程)时,此功能非常有用。

from dask.distributed import Client, LocalCluster
import multiprocessing as mp

with LocalCluster(n_workers=int(0.9 * mp.cpu_count()),
    processes=True,
    threads_per_worker=1,
    memory_limit='2GB',
    ip='tcp://localhost:9895',
) as cluster, Client(cluster) as client:
    # Do something using 'client'

上面发生了什么:

  • 集群正在本地计算机上旋转(即运行Python解释器的集群)。该群集的调度程序正在侦听端口9895。

  • 已创建集群,并启动了许多工作线程。自从我指定了processes=True以来,每个工作人员都是一个进程。

  • 加速工作的人数是四舍五入的CPU内核数的90%。因此,一台8核计算机将产生7个工作进程。这为SSH /笔记本服务器/其他应用程序留出了至少一个免费的内核。

  • 每个工作程序都使用2GB RAM进行初始化。有了临时群集,您可以启动具有不同RAM数量的工作人员来处理不同的工作负载。

  • 一旦with块退出,就会同时调用cluster.close()client.close()。第一个关闭集群,scehduler,nanny和所有工作程序,第二个断开客户端(在python解释器上创建)与集群的连接。

正在处理工作集时,可以通过检查lsof -i :9895来检查集群是否处于活动状态。如果没有输出,则说明集群已关闭。


样本用例:假设您要使用预先训练的ML模型来预测1,000,000个样本。

模型经过优化/向量化,因此可以很快地预测10K个示例,但预测1M则很慢。在这种情况下,有效的设置是从磁盘加载模型的多个副本,然后使用它们来预测1M示例的块。

Dask可让您轻松完成此操作并获得良好的加速效果:

def load_and_predict(input_data_chunk):
    model_path = '...' # On your disk, so accessible by all processes.
    model = some_library.load_model(model_path)
    labels, scores = model.predict(input_data_chunk, ...)
    return np.array([labels, scores])

# (not shown) Load `input_data`, a list of your 1M examples.

import dask.array as DaskArray

da_input_data = DaskArray.from_array(input_data, chunks=(10_000,))

prediction_results = None
with LocalCluster(n_workers=int(0.9 * mp.cpu_count()),
    processes=True,
    threads_per_worker=1,
    memory_limit='2GB',
    ip='tcp://localhost:9895',
) as cluster, Client(cluster) as client:
    prediction_results = da_input_data.map_blocks(load_and_predict).compute()

# Combine prediction_results, which will be a list of Numpy arrays, 
# each with labels, scores for 10,000 examples.

参考文献: