标签: deep-learning
在我的项目中,我想删除一些批处理规范和激活层。但是培训需要的时间比以前更长。训练后精度不会降低太多,但是收敛需要更长的时间。我能知道为什么会发生吗?合理吗?
答案 0 :(得分:0)
这些影响高度取决于您的模型拓扑和数据集。批处理规范使权重一发不可收拾。激活层以各种方式关注模型的“注意力”。删除这些将使您的拓扑更难从输入中学习。
我建议您阅读一些有关网络设计和这些特定细节的很好的介绍。除了您没有提供有关您的应用程序的详细信息,我对此无能为力。