在dask中使用溢出磁盘时使用KilledWorker

时间:2018-12-28 13:09:14

标签: python pandas dask dask-distributed

根据htop我的服务器规格如下

enter image description here

我的调度程序如下运行:

$ dask-scheduler

我有3个工人(我希望他们每个人都将在每个核心上运行),其运行方式如下:

$ dask-worker 10.X.XX.XXX:8786 --memory-limit=1e9 --local-directory /home/nabin/dask_spills

我期望dask框架会根据--memory-limit将多余的数据溢出到指定目录中。但是我仍然得到KilledWorker。我有以下代码段:

with Client('10.X.XX.XXX:8786') as client:
    ddf = dd.read_csv('file.RRF', delimiter='|', names=columns)# size=1.8 GB
    unique_values = ddf['some_column'].unique()
    unique_values_list = unique_values.values.compute().tolist()

不知道为什么,但是我得到了以下信息:

distributed.scheduler.KilledWorker: ("('eq-from-delayed-getitem-isin-pandas_read_text-read-block-drop-35c406aff6c152012cd72c946240777f', 14)", 'tcp://10.X.XX.XXX:42649')

仅供参考:我在此代码片段上方还有另一个dask数据框read_csv函数,用于其他逻辑。

0 个答案:

没有答案