在AWS Sagemaker和AWS Fargate上运行Dask时出现问题

时间:2019-07-02 22:55:34

标签: dask amazon-sagemaker dask-distributed aws-fargate

我正在尝试在AWS上设置集群以通过dask运行分布式sklearn模型训练。首先,我正在尝试遵循本教程,希望对其进行调整:https://towardsdatascience.com/serverless-distributed-data-pre-processing-using-dask-amazon-ecs-and-python-part-1-a6108c728cc4

我设法将docker容器推送到AWS ECR,然后启动CloudFormation模板以在AWS Fargate上构建集群。本教程的下一步是启动AWS Sagemaker笔记本。我已经尝试过了,但是有些不起作用,因为当我运行命令时,我得到了错误(见图)。 可能是什么问题?可能与VPC /子网相关吗? (与我尝试启用和禁用此功能有关)。

enter image description here

预期结果:快进行更新,扩大Fargate集群的工作范围。

实际结果:以上都不是。

1 个答案:

答案 0 :(得分:0)

就我而言,在执行同一教程时,DaskSchedulerService需要很长时间才能完成。创建已启动,但从未在CloudFormation中完成。 5-6小时后,我得到以下信息:

DaskSchedulerService CREATE_FAILED Dask-Scheduler不稳定。

工人没有奔跑,因此无法连接到客户端。