使用Keras + TF 1.14(不急于使用)时,是否可以逐步训练LSTM以提高存储效率?
来自PyTorch,我可以逐步传递序列,进行反向传播,并将隐藏状态用于下一步,而无需及时停止渐变(只要有足够的内存即可)。
当前,通过加载整个截断的时间序列来训练LSTM,并使用Keras TimeDistribute对其进行处理。
假设网络在LSTM之后很深,PyTorch版本应该需要少得多的内存,因为对于LSTM之后的部件,我们只需要为一个时间步存储中间结果即可。 (当使用相同的截短序列长度时)
Keras怎么可能发生类似的行为?