标签: deep-learning nlp
我在激活函数中具有高斯误差线性单位(GELUs),在流行的NLP模型 BERT 中使用。有什么可靠的理由吗?
答案 0 :(得分:0)
在某些情况下,为什么某些激活功能要比其他激活功能更好的原因尚不清楚。因此,“为什么使用GELU代替ReLu”的唯一答案是“因为它能更好地工作”