应用错误收集

我是深度学习和TensorFlow的新手。我正在实现paper，即Seq2Seq模型。这样的模型架构：编码器：

全球关注

两个不同的解码器，具有512个隐藏单元。

时间步长为1400。

批处理大小为64。

我使用Colab GPU和TPU进行训练，但我不知所措。我什至无法完成一个纪元。数据集大小约为25 Mb，其中包含79000个示例。这是我的implementation。

我的实现有什么问题吗？