在训练过程中监视SageMaker

时间:2018-09-16 13:33:32

标签: machine-learning amazon-sagemaker

我正在使用Amazon SageMaker训练包含大量数据的模型。 这需要很多时间-几小时甚至几天。在此期间,我希望能够查询培训师并查看其当前状态,尤其是:

  • 它已经执行了多少次迭代,还需要执行多少次迭代? (训练算法是深度学习-它基于迭代)。
  • 完成培训需要多少时间?
  • 理想情况下,我想使用当前迭代的模型对测试样本进行分类,以查看其当前性能。

执行此操作的一种方法是显式告诉培训人员在每次迭代后打印调试消息。但是,这些消息仅在运行培训师的控制台上可用。由于培训需要花费大量时间,因此我希望能够从其他计算机上远程查询培训师的状态。

是否可以远程查询正在运行的教练员的状态?

1 个答案:

答案 0 :(得分:2)

所有日志在Amazon Cloudwatch中均可用。您可以通过编程方式或通过API查询CloudWatch来解析日志。

您使用的是内置算法还是MXNet或TensorFlow之类的框架?对于TensorFlow,您可以使用TensorBoard来监视您的工作。

此外,您可以使用describe training job API调用来查看高级职位状态:

import sagemaker
sm_client = sagemaker.Session().sagemaker_client
print(sm_client.describe_training_job(TrainingJobName='You job name here'))