我正在尝试在Google的Cloud ML上运行培训工作。我工作的迹象是:
INFO 2017-06-07 15:14:01 -0700 master-replica-0已成功构建 training-job-foo
INFO 2017-06-07 15:14:01 -0700 master-replica-0安装收集的软件包:training-job-foo
INFO 2017-06-07 15:14:01 -0700 master-replica-0已成功安装training-job-foo-0.1.dev0
INFO 2017-06-07 15:14:01 -0700 master-replica-0运行命令:pip install --user training-job-foo-0.1.dev0.tar.gz
INFO 2017-06-07 15:14:02 -0700 master-replica-0 Processing ./training-job-foo-0.1.dev0.tar.gz
INFO 2017-06-07 15:14:03 -0700 master-replica-0运行命令: python -m training-job-foo.training_routine_bar --job-dir GS://区域桶相似到训练在职/输出/
INFO 2017-06-07 15:14:21 -0700 master-replica-0摘要名称总计 准确性是非法的;改为使用Total_Accuracy。
最后,我还看到CPU,内存使用量增加以及我消耗的MLUnits增加
我应该补充一下,我也看到了摘要文件编写者在创建作业之前创建了摘要文件,但我没看到这些文件的大小增加。我还看到一个初始检查点文件写入gs:// regional-bucket-similar-to-training-job / output /
除此之外,我看不到更多的日志或输出。我应该看到日志,因为我打印准确性,经常丢失。我还写了摘要和检查点文件。
我错过了什么?
此类场景中还有哪些其他调试工具可用?我目前所做的只是流式传输日志,在Cloud ML控制台上查看作业状态,CPU使用率,内存使用情况以及观察我的云存储桶以进行任何更改
答案 0 :(得分:2)
很抱歉您遇到了问题。目前,可用的调试工具是作业日志,指标和TensorBoard,但似乎所有这些都不能用于您的情况。 如果可能的话,您能否将您的项目编号和工作ID发送给cloudml-feedback @ google.com,以便我们仔细查看?