我有问题要了解tensorflow执行变量的位置。在我的例子中,我有一个大字嵌入矩阵,由RNN用来生成文本。在文本生成过程中,有一个嵌入查找,我知道这个查找需要在CPU上执行,因为GPU不支持它。
我想扩展我的系统,以便使用大嵌入矩阵进行计算,但此操作非常慢。我认为这也将在cpu上执行,尽管可以在GPU上进行计算。当我在计算期间循环到工具GPU-Z时,我可以看到总线接口负载非常高(> 60%)并且GPU负载非常低(<10%)的大部分时间。
发布一个最小的例子非常困难,我希望问题很清楚。我不知道如何调试它。由于查找操作,嵌入是否自动放在cpu上?你知道如何克服这个问题吗?