有人能告诉我他们在机器上训练模型需要多长时间?我已经从下面的代码中发布了一些日志记录信息。 top
显示python的cpu使用率约为300%,nvidia-smi
昨天显示Volatile GPU-Util
约为60%,但现在约为30%。 30小时前开始训练,现在损失已经在0.10左右振荡了大约15个小时。我可能需要调整渐变下降的截止参数,但我希望代码能够像在教程库中一样运行和收敛。我按照教程here,他们说
该型号在a内实现了约86%精度的峰值性能 在GPU上花费几个小时的培训时间
>>> head -n20 nohup.out
...
2017-05-14 16:38:21.763013: I tensorflow/core/common_runtime/gpu/gpu_device.cc:887] Found device 0 with properties:
name: GeForce GTX 960
major: 5 minor: 2 memoryClockRate (GHz) 1.342
pciBusID 0000:01:00.0
Total memory: 1.95GiB
Free memory: 1.58GiB
2017-05-14 16:38:21.763029: I tensorflow/core/common_runtime/gpu/gpu_device.cc:908] DMA: 0
2017-05-14 16:38:21.763036: I tensorflow/core/common_runtime/gpu/gpu_device.cc:918] 0: Y
2017-05-14 16:38:21.763044: I tensorflow/core/common_runtime/gpu/gpu_device.cc:977] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 960, pci bus id: 0000:01:00.0)
Successfully downloaded cifar-10-binary.tar.gz 170052171 bytes.
Filling queue with 20000 CIFAR images before starting to train. This will take a few minutes.
2017-05-14 16:38:36.943404: step 0, loss = 4.68 (83.0 examples/sec; 1.542 sec/batch)
2017-05-14 16:38:37.983802: step 10, loss = 4.60 (1230.3 examples/sec; 0.104 sec/batch)
2017-05-14 16:38:39.199938: step 20, loss = 4.55 (1052.5 examples/sec; 0.122 sec/batch)
答案 0 :(得分:0)
训练似乎能够在你想要的时候运行。当您获得所需的损失时,您将终止训练脚本,只需确保训练最近生成了检查点文件。对我来说,检查点文件位于/ tmp / cifar10_train。
首先我尝试glibc-2.17-157.el7_3.1.x86_64
。正如他们在教程中提到的那样,这并没有为评估脚本留下足够的内存,所以我用```kill -9终止了训练脚本。然后我运行了评估脚本,并获得了他们在教程中提到的86%的准确性。
kill -SIGSTOP <pid>