Question

根据htop我的服务器规格如下

我的调度程序如下运行：

$ dask-scheduler

我有3个工人（我希望他们每个人都将在每个核心上运行），其运行方式如下：

$ dask-worker 10.X.XX.XXX:8786 --memory-limit=1e9 --local-directory /home/nabin/dask_spills

我期望dask框架会根据--memory-limit将多余的数据溢出到指定目录中。但是我仍然得到KilledWorker。我有以下代码段：

with Client('10.X.XX.XXX:8786') as client:
    ddf = dd.read_csv('file.RRF', delimiter='|', names=columns)# size=1.8 GB
    unique_values = ddf['some_column'].unique()
    unique_values_list = unique_values.values.compute().tolist()

不知道为什么，但是我得到了以下信息：

distributed.scheduler.KilledWorker: ("('eq-from-delayed-getitem-isin-pandas_read_text-read-block-drop-35c406aff6c152012cd72c946240777f', 14)", 'tcp://10.X.XX.XXX:42649')

仅供参考：我在此代码片段上方还有另一个dask数据框read_csv函数，用于其他逻辑。

在dask中使用溢出磁盘时使用KilledWorker

0 个答案: