我试图在p3.2xlarge aws机器(具有NVIDIA Tesla V100 GPU)上使用keras \ tensorflow(1.4)训练模型 使用GPU时,初始化的两个部分非常慢,但在CPU上合理的时间运行
第一部分是"呼叫"模型设置期间的嵌入层
network = embedding(input)
这个嵌入层多次使用,但只有第一次很慢 似乎这是将权重复制到GPU的阶段,对于400000 * 200权重矩阵,它需要几个小步(~5)
第二个长部分是第一批对train_on_batch的调用(大约需要20分钟)
不确定它是否相关,但根据this post,它可能与使用自定义图层有关
有没有办法加快这些部分?
修改 在p2.xlarge aws机器(具有Tesla K80 GPU)上运行相同代码时,这些部件并不慢。