我正在使用Amazon SageMaker训练包含大量数据的模型。 这需要很多时间-几小时甚至几天。在此期间,我希望能够查询培训师并查看其当前状态,尤其是:
执行此操作的一种方法是显式告诉培训人员在每次迭代后打印调试消息。但是,这些消息仅在运行培训师的控制台上可用。由于培训需要花费大量时间,因此我希望能够从其他计算机上远程查询培训师的状态。
是否可以远程查询正在运行的教练员的状态?
答案 0 :(得分:2)
所有日志在Amazon Cloudwatch中均可用。您可以通过编程方式或通过API查询CloudWatch来解析日志。
您使用的是内置算法还是MXNet或TensorFlow之类的框架?对于TensorFlow,您可以使用TensorBoard来监视您的工作。
此外,您可以使用describe training job API调用来查看高级职位状态:
import sagemaker
sm_client = sagemaker.Session().sagemaker_client
print(sm_client.describe_training_job(TrainingJobName='You job name here'))