tensorflow - 如何从运行Google Cloud ml培训实例中收集性能指标？ - Thinbug

如何从运行Google Cloud ml培训实例中收集性能指标？

时间：2017-02-13 18:57:40

标签： tensorflow google-cloud-platform google-cloud-ml

我在google cloud ml培训中运行模型，并且对机器的形状进行一些天真的猜测需要大约10个小时。我想优化它以减少运行时间和总体成本。

确定我是否有效使用资源的最佳方法是什么？我喜欢cpu测量，内存压力和GPU使用（只要它们可用）。我怀疑我需要1）记录这些或2）安装一个监控代理，如堆栈驱动程序，并假设像nvidia-smi这样的东西是可定位的，但我很好奇，如果有人尝试过。

1 个答案:

答案 0 :(得分：1)

此功能现已内置于产品中 - CPU和RAM使用指标（暂时）作为Stackdriver指标发布。

指标视图也会显示在作业详细信息页面的控制台中。

希望有所帮助。