我的Dask计算很慢。当我查看诊断仪表板的状态页面时,我发现大部分时间都花在disk-read-*
和disk-write-*
任务上。
这是什么意思?
如何诊断此问题?
答案 0 :(得分:3)
当Dask工作人员开始耗尽内存时,他们会将额外的数据写入磁盘。这将作为disk-write-
任务记录在状态页面中。当再次需要该数据时,将从磁盘读取该数据,并在状态页面上显示disk-read-
任务。您可以通过查看显示每个工作程序的内存使用情况的左上图或通过查看显示每个特定类型仍在内存中的任务数的进度条的实体部分来确认这一点。
您可以解决这个问题:
persist
大量数据时