我有一个包含727253个标签图像的多标签数据集。最小的标签出现是〜15,最大的出现在200000附近。模型训练开始于〜18h之前,但现在失败,并显示以下消息:
Unable to deploy model
cancel_lro() got an unexpected keyword argument 'min_nodes'
Pipeline d884756f14314048b7a036f5b07f0fd2 timeout.
自动生成的电子邮件包含以下内容:
Last error message
Please reference 116298312436989152 when reporting errors.
这是已知的吗?我还选择了免费计划(1h)进行培训。我需要增加它才能正常工作吗?在训练期间是否有任何方法可以看到状态以预测大量等待时间而没有结果? (我尝试过该API,但没有百分比或其他类似功能,仅适用于完成的模型。)
谢谢!
答案 0 :(得分:0)
这似乎是内部错误。主要问题似乎是管道超时。作为超时的一部分,它尝试进行某种清理,并且这种清理似乎存在错误。
我的建议是重试管道。