应用错误收集

我正在尝试实现文本分类的分层注意paper。我发现的挑战之一是如何通过优化器管理批处理和网络权重的更新。网络的体系结构由两个一个接一个堆叠的编码器组成：句子编码器和文档编码器。

当数据集由大型文档组成时，会出现以下问题：对于每次通过文档编码器，您将通过句子编码器进行多次传递。当计算损失并且优化器使用计算的梯度来更新网络参数的权重时，我假设句子编码器的权重应该与文档编码器的权重不同地更新。这样做的好策略是什么？如何在Keras或Pytorch？

等库中实施该策略