Dask-可以为dask数据框任务分配dask_key_name吗?

时间:2019-11-25 16:14:03

标签: dask dask-distributed dask-delayed

在调试问题的过程中,我发现很难准确地确定哪些任务导致了问题。我在延迟任务中成功使用了'dask_key_name'kwarg为这些延迟任务分配了易于理解的名称(基于此处的文档https://docs.dask.org/en/latest/delayed-api.html)。我已尝试执行以下操作,希望对read_parquet任务也可以这样做,但看来它仍使用散列值来创建密钥(例如(('read-parquet-ed9e6c4c474e851e176e7eafb8753490',5)) 。

item = 'custom_string'
self.all_pfs_dict['read'][item] = dd.read_parquet(item_to_read, index=False, gather_statistics=False, dask_key_name=item + '-read')

我做错了什么吗?还是有另一种方式命名dask数据框任务?

2 个答案:

答案 0 :(得分:1)

今天无法重命名这样的数据框任务。

答案 1 :(得分:0)

我以前也有类似的问题,但是除from_pandas()方法外,它似乎不支持这种情况。

from_pandas()的{​​{3}}参数为name,而其他set name参数则没有。

因此,如果要执行此操作,则需要更改上面链接的Dask代码。