在调试问题的过程中,我发现很难准确地确定哪些任务导致了问题。我在延迟任务中成功使用了'dask_key_name'kwarg为这些延迟任务分配了易于理解的名称(基于此处的文档https://docs.dask.org/en/latest/delayed-api.html)。我已尝试执行以下操作,希望对read_parquet任务也可以这样做,但看来它仍使用散列值来创建密钥(例如(('read-parquet-ed9e6c4c474e851e176e7eafb8753490',5)) 。
item = 'custom_string'
self.all_pfs_dict['read'][item] = dd.read_parquet(item_to_read, index=False, gather_statistics=False, dask_key_name=item + '-read')
我做错了什么吗?还是有另一种方式命名dask数据框任务?
答案 0 :(得分:1)
今天无法重命名这样的数据框任务。
答案 1 :(得分:0)
我以前也有类似的问题,但是除from_pandas()
方法外,它似乎不支持这种情况。
from_pandas()
的{{3}}参数为name
,而其他set name参数则没有。
因此,如果要执行此操作,则需要更改上面链接的Dask代码。