Question

有人能告诉我他们在机器上训练模型需要多长时间？我已经从下面的代码中发布了一些日志记录信息。 top显示python的cpu使用率约为300％，nvidia-smi昨天显示Volatile GPU-Util约为60％，但现在约为30％。 30小时前开始训练，现在损失已经在0.10左右振荡了大约15个小时。我可能需要调整渐变下降的截止参数，但我希望代码能够像在教程库中一样运行和收敛。我按照教程here，他们说

该型号在a内实现了约86％精度的峰值性能在GPU上花费几个小时的培训时间

>>> head -n20 nohup.out
...
2017-05-14 16:38:21.763013: I tensorflow/core/common_runtime/gpu/gpu_device.cc:887] Found device 0 with properties: 
name: GeForce GTX 960
major: 5 minor: 2 memoryClockRate (GHz) 1.342
pciBusID 0000:01:00.0
Total memory: 1.95GiB
Free memory: 1.58GiB
2017-05-14 16:38:21.763029: I tensorflow/core/common_runtime/gpu/gpu_device.cc:908] DMA: 0 
2017-05-14 16:38:21.763036: I tensorflow/core/common_runtime/gpu/gpu_device.cc:918] 0:   Y 
2017-05-14 16:38:21.763044: I tensorflow/core/common_runtime/gpu/gpu_device.cc:977] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 960, pci bus id: 0000:01:00.0)

Successfully downloaded cifar-10-binary.tar.gz 170052171 bytes.
Filling queue with 20000 CIFAR images before starting to train. This will take a few minutes.
2017-05-14 16:38:36.943404: step 0, loss = 4.68 (83.0 examples/sec; 1.542 sec/batch)
2017-05-14 16:38:37.983802: step 10, loss = 4.60 (1230.3 examples/sec; 0.104 sec/batch)
2017-05-14 16:38:39.199938: step 20, loss = 4.55 (1052.5 examples/sec; 0.122 sec/batch)

Answer 1

训练似乎能够在你想要的时候运行。当您获得所需的损失时，您将终止训练脚本，只需确保训练最近生成了检查点文件。对我来说，检查点文件位于/ tmp / cifar10_train。

首先我尝试glibc-2.17-157.el7_3.1.x86_64。正如他们在教程中提到的那样，这并没有为评估脚本留下足够的内存，所以我用```kill -9终止了训练脚本。然后我运行了评估脚本，并获得了他们在教程中提到的86％的准确性。

kill -SIGSTOP <pid>

使用GTX 960在张量流中训练cifar10需要多长时间

1 个答案: