应用错误收集

我有问题要了解tensorflow执行变量的位置。在我的例子中，我有一个大字嵌入矩阵，由RNN用来生成文本。在文本生成过程中，有一个嵌入查找，我知道这个查找需要在CPU上执行，因为GPU不支持它。

我想扩展我的系统，以便使用大嵌入矩阵进行计算，但此操作非常慢。我认为这也将在cpu上执行，尽管可以在GPU上进行计算。当我在计算期间循环到工具GPU-Z时，我可以看到总线接口负载非常高（> 60％）并且GPU负载非常低（<10％）的大部分时间。

发布一个最小的例子非常困难，我希望问题很清楚。我不知道如何调试它。由于查找操作，嵌入是否自动放在cpu上？你知道如何克服这个问题吗？