如何从运行Google Cloud ml培训实例中收集性能指标?

时间:2017-02-13 18:57:40

标签: tensorflow google-cloud-platform google-cloud-ml

我在google cloud ml培训中运行模型,并且对机器的形状进行一些天真的猜测需要大约10个小时。我想优化它以减少运行时间和总体成本。

确定我是否有效使用资源的最佳方法是什么?我喜欢cpu测量,内存压力和GPU使用(只要它们可用)。我怀疑我需要1)记录这些或2)安装一个监控代理,如堆栈驱动程序,并假设像nvidia-smi这样的东西是可定位的,但我很好奇,如果有人尝试过。

1 个答案:

答案 0 :(得分:1)

此功能现已内置于产品中 - CPU和RAM使用指标(暂时)作为Stackdriver指标发布。

指标视图也会显示在作业详细信息页面的控制台中。

希望有所帮助。