标签: neural-network keras recurrent-neural-network pytorch attention-model
我正在尝试实现文本分类的分层注意paper。我发现的挑战之一是如何通过优化器管理批处理和网络权重的更新。网络的体系结构由两个一个接一个堆叠的编码器组成:句子编码器和文档编码器。
当数据集由大型文档组成时,会出现以下问题:对于每次通过文档编码器,您将通过句子编码器进行多次传递。当计算损失并且优化器使用计算的梯度来更新网络参数的权重时,我假设句子编码器的权重应该与文档编码器的权重不同地更新。这样做的好策略是什么?如何在Keras或Pytorch?
Keras
Pytorch