AWS Sagemaker 训练作业卡在进度状态

时间:2021-02-10 17:44:33

标签: amazon-web-services amazon-sagemaker

昨天我像往常一样创建了一个训练作业,只是添加了一些训练数据。在过去的 2 年中,我对此没有任何问题(完全相同的程序和代码)。这一次在 14 小时后或多或少只是停滞不前。 培训工作仍在“处理中”,但 cloudwatch 从那时起没有记录任何内容。现在又过去了 8 个小时,日志中没有新条目,没有错误也没有崩溃。 有人可以解释一下吗?不幸的是,我没有任何 AWS 支持计划。 正如你从下图中看到的上午 11 点之后什么都没有..

enter image description here

训练作业应该在接下来的几个小时内完成,但现在我不确定是否真的在运行(在这种情况下将是一个 cloudwatch 问题)。

更新

突然训练作业失败,没有任何进一步的日志。原因是

<块引用>

ClientError: Artifact upload failed:Error 7: The credentials received 已过期

但是在上午 11 点之后日志中仍然没有任何内容。很奇怪。

1 个答案:

答案 0 :(得分:0)

对于未来的读者,我可以确认这是很少发生的事情(从那时起我再也没有经历过),但这是 AWS 的错。同样的数据,同样的算法。