为什么在深度学习中使用对数概率?

时间:2020-08-10 04:25:03

标签: math deep-learning nlp lstm

我在阅读论文《使用神经网络进行序列学习的序列》时感到好奇。 实际上,不仅本文而且许多其他论文都使用对数概率,这是否有原因? 请检查所附的照片。

enter image description here

2 个答案:

答案 0 :(得分:0)

对于任何给定的问题,我们都需要优化参数的可能性。但是优化产品需要一次获取所有数据,并且需要大量计算。

我们知道和最容易优化,因为和的导数就是导数的和。因此,将对数转换为总和可以使计算更快。

引用this

答案 1 :(得分:0)

两个原因-

  1. 理论-两个同时发生的独立事件A和B的概率由P(A).P(B)给出。如果使用对数,则很容易将其映射为总和,即log(P(A))+ log(P(B))。因此,将神经元触发“事件”作为线性函数更容易解决。

  2. 实用-概率值在[0,1]中。因此,将两个或多个这样的小数相乘可能很容易导致浮点精度算术下溢(例如,考虑乘以0.0001 * 0.00001)。一种实用的解决方案是使用日志来消除下溢。