标签: python tensorflow gpu predict
我正在使用tensorflow-gpu 1.14.x在具有GPU的32核主机上运行BERT SQuAD预测任务。 BERT处理的某些部分仅在cpu上发生,而核心预测部分在GPU上运行。发生在cpu上的那些处理部分都绑定到单个cpu,这使它们成为很大的瓶颈。当在非gpu张量流上运行时,我注意到所有可用的内核都在使用中。可以预期,由于并发性,以前在一个内核上运行的部件要快得多。但是可以理解,使用GPU带来的计算速度要慢得多。
有没有一种方法可以指定处理过程的非gpu部分使用多个cpu?