为什么在BERT中使用“ GELU”激活功能来读取ReLu?

时间:2019-08-17 01:34:21

标签: deep-learning nlp

我在激活函数中具有高斯误差线性单位(GELUs),在流行的NLP模型 BERT 中使用。有什么可靠的理由吗?

1 个答案:

答案 0 :(得分:0)

在某些情况下,为什么某些激活功能要比其他激活功能更好的原因尚不清楚。因此,“为什么使用GELU代替ReLu”的唯一答案是“因为它能更好地工作”