我已经看了下面的错误消息了很长一段时间但是无法弄清楚导致失败的原因。
错误:
concurrent.futures._base.CancelledError: ('sort_index-f23b0553686b95f2d91d4a3fda85f229', 7)
重启dask集群后,它成功运行。
答案 0 :(得分:0)
如果运行 dask-cloudprovider
ECSCluster
或 FargateCluster
,concurrent.futures._base.CancelledError
可能来自计算中的长时间运行步骤,其中没有输出(日志记录或其他方式)到Client
。在这些情况下,由于缺乏与客户端的交互,调度程序将自己视为“空闲”并在配置的 cloudprovider.ecs.scheduler_timeout
时间段(默认为 5 分钟)之后超时。 CancelledError 错误消息具有误导性,但如果您查看调度程序任务本身的日志,它将记录空闲超时。
解决方案是通过配置或直接传递给 scheduler_timeout
/ECSCluster
构造函数,将 FargateCluster
设置为更高的值。