caffe中没有多GPU培训

时间:2017-04-09 12:27:50

标签: deep-learning caffe

尝试使用带有多个gpus的caffe时会遇到问题。执行以下命令时,我得到以下错误日志:

caffe train -solver $SOLVER -gpu 0,1 2>&1 | tee $LOGGING

F0409 14:17:22.355074 12079 caffe.cpp:254] Multi-GPU execution not available - rebuild with USE_NCCL
*** Check failure stack trace: ***
    @     0x2aee66002b2d  google::LogMessage::Fail()
    @     0x2aee66004995  google::LogMessage::SendToLog()
    @     0x2aee660026a9  google::LogMessage::Flush()
    @     0x2aee6600542e  google::LogMessageFatal::~LogMessageFatal()
    @           0x40c172  train()
    @           0x4084f3  main
    @     0x2aee78f67b35  __libc_start_main
    @           0x408f0b  (unknown)

有谁能解释这里有什么问题?是否有一些我不知道的咖啡虫?

1 个答案:

答案 0 :(得分:0)

  1. 安装CUDA
  2. 安装cuDNN
  3. 安装依赖项

    $ sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler libgflags-dev libgoogle-glog-dev liblmdb-dev libatlas-base-dev git
    $ sudo apt-get install --no-install-recommended libboost-all-dev

  4. 安装NCCL

  5. NVIDIA NCCL需要在多个GPU上运行Caffe。可以使用以下命令安装NCCL:

    $ git clone https://github.com/NVIDIA/nccl.git
    $ cd nccl
    $ sudo make install -j
    

    NCCL库和标题将安装在/ usr / local / lib和/ usr / local / include中。

    1. 安装Caffe
    2. 取消注释USE_CUDNN:= 1.这将启用cuDNN加速。

      取消注释USE_NCCL:= 1.这将启用在多个GPU上运行Caffe所需的NCCL。

      保存并关闭文件。您现在已准备好编译Caffe。

      $ make all -j
      

      当此命令完成时,Caffe二进制文件将在build / tools / caffe。

      中可用