在我的设置中,我训练了一个密集的keras层,其中图层的权重成为图像嵌入。然后我拿这个图层的权重,用一组输入向量做这个点的乘积。
我想使用GPU运行它,并且使用1 GPU可以正常运行。但是,我注意到,当在数据并行模式下跟踪多个GPU的documentation时,出现的模型摘要显示了我的网络结构的变化。看起来这是因为它是在每个设备上复制一次目标模型,并使用每个副本处理输入数据的不同部分"。
问题:当我从嵌入图层中提取权重时,它仍然会给我整个图层,还是需要提取多组权重并以某种方式合并它们?