根据htop
我的服务器规格如下
我的调度程序如下运行:
$ dask-scheduler
我有3个工人(我希望他们每个人都将在每个核心上运行),其运行方式如下:
$ dask-worker 10.X.XX.XXX:8786 --memory-limit=1e9 --local-directory /home/nabin/dask_spills
我期望dask框架会根据--memory-limit
将多余的数据溢出到指定目录中。但是我仍然得到KilledWorker
。我有以下代码段:
with Client('10.X.XX.XXX:8786') as client:
ddf = dd.read_csv('file.RRF', delimiter='|', names=columns)# size=1.8 GB
unique_values = ddf['some_column'].unique()
unique_values_list = unique_values.values.compute().tolist()
不知道为什么,但是我得到了以下信息:
distributed.scheduler.KilledWorker: ("('eq-from-delayed-getitem-isin-pandas_read_text-read-block-drop-35c406aff6c152012cd72c946240777f', 14)", 'tcp://10.X.XX.XXX:42649')
仅供参考:我在此代码片段上方还有另一个dask数据框read_csv函数,用于其他逻辑。