仅在训练tacotron模型的许多时期之后OOM错误

时间:2018-12-23 22:55:02

标签: tensorflow

我正在检查Google的tacotron2模型,对其进行了略微修改以适合我的数据。训练成功进行到大约9000个纪元,但随后引发了OOM错误(我重复了训练,但是每次尝试都在相同的位置停止)。

我在swap_memory=True函数中添加了tf.nn.bidirectional_dynamic_rnn选项,以查看它是否可以解析。更改之后,训练的运行速度会稍慢一些,但可以运行更多的时间,但仍会在大约10000个时间段引发OOM错误。

我正在使用12GB titanX gpu。模型检查点文件(每个检查点3个文件)只有500 MB,元和数据文件只有80 MB。我对检查点了解不多,但是如果它代表训练所需的所有模型参数和所有变量,它似乎比12 GB小得多,而且我不明白为什么会发生OOM错误。

有人知道什么可能导致OOM错误吗?如何检查是否有杂散变量/图形不断累积?还是动态rnn会导致问题?

1 个答案:

答案 0 :(得分:-1)

没有找到此错误。也许您可以只升级tensorflow版本或cuda驱动程序。或只是减小批量大小