我有一个简单的Keras
模型正在提交给Google Cloud AI Platform培训,并且希望利用GPU进行处理。
作业提交并成功完成。
查看使用情况统计信息,GPU的使用率从未超过0%
。但是,随着训练的进行,CPU使用率会增加。
关于使我的模型与GPU一起工作可能有什么问题的任何想法? 有什么方法可以解决这种情况?
config.yaml
trainingInput:
scaleTier: CUSTOM
masterType: standard_gpu
我正在使用运行时版本1.13
,该版本已安装了tensorflow。我的setup.py
中其他必需的软件包包括:
REQUIRED_PACKAGES = ['google-api-core==1.14.2',
'google-cloud-core==1.0.3',
'google-cloud-logging==1.12.1',
'google-cloud-storage==1.18.0',
'gcsfs==0.2.3',
'h5py==2.9.0',
'joblib==0.13.2',
'numpy==1.16.4',
'pandas==0.24.2',
'protobuf==3.8.0',
'scikit-learn==0.21.2',
'scipy==1.3.0',
'Keras==2.2.4',
'Keras-Preprocessing==1.1.0',
]
查看日志,看起来好像找到了GPU
master-replica-0 Found device 0 with properties: master-replica-0
master-replica-0 name: Tesla K80 major: 3 minor: 7 memoryClockRate(GHz): 0.8235 master-replica-0
更新:
该模型使用的是GPU,但未得到充分利用。
在AI Platform
中,“作业概述”页面中的utilization graphs
比日志中显示的活动晚约5分钟。
结果,您的日志可能会显示一个正在处理的纪元,但利用率图表仍会显示0% utilization
。
我如何解决-
fit_generator
函数multiprocessing=true, queue_length=10, workers=5
。我目前正在调整这些参数来确定最有效的方法,但是现在我的GPU利用率达到了约30%。答案 0 :(得分:0)
该模型使用的是GPU,但未得到充分利用。
在AI Platform
中,“作业概述”页面中的utilization graphs
比日志中显示的活动晚约5分钟。
结果,您的日志可能会显示一个正在处理的纪元,但利用率图表仍会显示0% utilization
。
我如何解决-
fit_generator
函数multiprocessing=true, queue_length=10, workers=5
。我目前正在调整这些参数来确定最有效的方法,但是现在我的GPU利用率达到了约30%。