我正在使用Google Cloud ML来培训工作。我观察到一种奇特的行为,在这种行为中,我观察到培训工作为完成相同数据所花费的时间。我分析了云ML控制台中的CPU和内存利用率,并在两种情况下(7分钟和14分钟)看到非常相似的利用率。
任何人都可以让我知道服务的原因是什么时间不足以完成工作。
我在两种情况下都有相同的参数和数据,并且还验证了在PREPARING
阶段花费的时间在两种情况下几乎相同。
同样重要的是我在同一个项目上同时安排多个独立的培训工作,如果是这样,那么我想知道它背后的基本原理。
任何帮助将不胜感激。
答案 0 :(得分:0)
最简单的方法是添加更多日志记录以检查花费的时间。您还可以使用TensorBoard检查培训进度。多个作业之间没有VM共享,因此不太可能由同时作业引起。
此外,应从作业进入RUNNING状态的时间点开始测量运行时间。作业启动延迟取决于它的冷启动或热启动(即,我们将VM保留以前的作业运行一段时间)。