Keras模型未在AI平台培训中使用GPU

时间:2019-08-14 04:02:19

标签: google-cloud-platform google-cloud-ml

我有一个简单的Keras模型正在提交给Google Cloud AI Platform培训,并且希望利用GPU进行处理。

作业提交并成功完成。 查看使用情况统计信息,GPU的使用率从未超过0%。但是,随着训练的进行,CPU使用率会增加。

关于使我的模型与GPU一起工作可能有什么问题的任何想法? 有什么方法可以解决这种情况?

config.yaml

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu

我正在使用运行时版本1.13,该版本已安装了tensorflow。我的setup.py中其他必需的软件包包括:

REQUIRED_PACKAGES = ['google-api-core==1.14.2',
                     'google-cloud-core==1.0.3',
                     'google-cloud-logging==1.12.1',
                     'google-cloud-storage==1.18.0',
                     'gcsfs==0.2.3',
                     'h5py==2.9.0',
                     'joblib==0.13.2',
                     'numpy==1.16.4',
                     'pandas==0.24.2',
                     'protobuf==3.8.0',
                     'scikit-learn==0.21.2',
                     'scipy==1.3.0',
                     'Keras==2.2.4',
                     'Keras-Preprocessing==1.1.0',
                     ]

查看日志,看起来好像找到了GPU

master-replica-0 Found device 0 with properties:  master-replica-0 
master-replica-0 name: Tesla K80 major: 3 minor: 7 memoryClockRate(GHz): 0.8235 master-replica-0 

更新:

该模型使用的是GPU,但未得到充分利用。

AI Platform中,“作业概述”页面中的utilization graphs比日志中显示的活动晚约5分钟。
结果,您的日志可能会显示一个正在处理的纪元,但利用率图表仍会显示0% utilization

我如何解决-

  • 我正在使用fit_generator函数
  • 我设置了multiprocessing=true, queue_length=10, workers=5。我目前正在调整这些参数来确定最有效的方法,但是现在我的GPU利用率达到了约30%。

1 个答案:

答案 0 :(得分:0)

该模型使用的是GPU,但未得到充分利用。

AI Platform中,“作业概述”页面中的utilization graphs比日志中显示的活动晚约5分钟。
结果,您的日志可能会显示一个正在处理的纪元,但利用率图表仍会显示0% utilization

我如何解决-

  • 我正在使用fit_generator函数
  • 我设置了multiprocessing=true, queue_length=10, workers=5。我目前正在调整这些参数来确定最有效的方法,但是现在我的GPU利用率达到了约30%。