我目前正在从事一个涉及“软”功能检测的项目。这些特征通常很小,因为它们很小并且缺乏定义的纹理或边缘,因此很难检测。同样,与任何“现实”数据集一样,它相对较小。训练的前几个时期通常停滞不前,并且查看特征激活图(GRAD-CAM),该模型存在着重于“实际”兴趣领域的问题。因此,我怀疑这可能是由于“垂死的关系”问题造成的(模型难以找到要关注的“正确”区域,而相关权重被“杀死”了/模型决定过度拟合其他区域)
将激活从ReLU更改为S形然后再转换为ELU似乎有很大帮助(在验证准确性和基于热图的关注方面)。
我想知道是否可以进一步使用激活来解决爆炸梯度问题(也许像泄漏的S型或泄漏的ReLU-6),但是我似乎找不到类似的东西在线。
谢谢:)