昨天我像往常一样创建了一个训练作业,只是添加了一些训练数据。在过去的 2 年中,我对此没有任何问题(完全相同的程序和代码)。这一次在 14 小时后或多或少只是停滞不前。 培训工作仍在“处理中”,但 cloudwatch 从那时起没有记录任何内容。现在又过去了 8 个小时,日志中没有新条目,没有错误也没有崩溃。 有人可以解释一下吗?不幸的是,我没有任何 AWS 支持计划。 正如你从下图中看到的上午 11 点之后什么都没有..
训练作业应该在接下来的几个小时内完成,但现在我不确定是否真的在运行(在这种情况下将是一个 cloudwatch 问题)。
更新
突然训练作业失败,没有任何进一步的日志。原因是
<块引用>ClientError: Artifact upload failed:Error 7: The credentials received 已过期
但是在上午 11 点之后日志中仍然没有任何内容。很奇怪。
答案 0 :(得分:0)
对于未来的读者,我可以确认这是很少发生的事情(从那时起我再也没有经历过),但这是 AWS 的错。同样的数据,同样的算法。