我正在尝试实施本文中的网络:https://arxiv.org/pdf/1608.03440.pdf;使用在同一网络中多次使用共享层的循环架构。问题是如何通过为每个正向通过这些层计算的梯度的平均值来实现这些层的更新。
我正在使用tensorflow后端,但我没有找到如何为这种共享权重计算渐变。
我只发现渐变函数只能按层返回1组渐变,而不能通过此图层的前向传递返回1组渐变。所以我不知道返回的渐变是从多个渐变聚合还是只返回其中一个渐变。
只有其他方式来解决我的问题,我能想到的是不使用共享权重并使用自定义优化器来获得附属图层组的平均渐变,但它的优化程度要低得多。