我在google cloud ml培训中运行模型,并且对机器的形状进行一些天真的猜测需要大约10个小时。我想优化它以减少运行时间和总体成本。
确定我是否有效使用资源的最佳方法是什么?我喜欢cpu测量,内存压力和GPU使用(只要它们可用)。我怀疑我需要1)记录这些或2)安装一个监控代理,如堆栈驱动程序,并假设像nvidia-smi这样的东西是可定位的,但我很好奇,如果有人尝试过。
答案 0 :(得分:1)
此功能现已内置于产品中 - CPU和RAM使用指标(暂时)作为Stackdriver指标发布。
指标视图也会显示在作业详细信息页面的控制台中。
希望有所帮助。