明确实现Softmax及其派生类

时间:2019-04-22 03:48:30

标签: python neural-network softmax

我目前正在用python 3.7和numpy编写我的第一个多层神经网络,但在实现softmax时遇到了麻烦(我打算使用我的网络进行分类,因此,实现softmax的有效实现非常关键)。我从另一个线程复制了此代码:

def softmax(x):
    return exp(x) / np.sum(exp(x), axis = 0)

我认为我对softmax函数的预期功能有基本了解;也就是说,取一个向量并将其元素转换为概率,以便它们的总和为1。如果我错了,请更正我的理解。我不太了解这段代码是如何完成该功能的,但是我在其他多个线程上发现了类似的代码,因此我相信它是正确的。请确认。

不幸的是,在这些线程中,我找不到一个明显的softmax函数派生实现。我知道它比大多数激活函数要复杂得多,并且不仅需要x,还需要更多参数,但是我不知道如何自己实现。我正在寻找其他参数的解释,以及softmax函数的导数的实现(或数学表达式)。

1 个答案:

答案 0 :(得分:0)

how this code accomplishes that function的答案:

在这里,我们利用称为broadcasting的概念。

使用函数exp(x)时,假设x是向量,则实际上执行的操作类似于以下代码可以完成的操作:

exps = []
for i in x:
    exps.append(exp(i))
return exps

上面的代码是广播在此处自动执行的操作的较长版本。

关于派生的实现,就像您所说的那样,要复杂一些。

用于计算每个参数的导数向量的未经测试的实现:

def softmax_derivative(X):
    # input : a vector X
    # output : a vector containing derivatives of softmax(X) wrt every element in X

    # List of derivatives
    derivs = []

    # denominator after differentiation
    denom = np.sum(exp(X), axis=0)

    for x in X:
        # Function of current element based on differentiation result
        comm = -exp(x)/(denom**2)
        factor = 0

        # Added exp of every element except current element
        for other in X:
            if other==x:
                continue
            factor += (exp(other))

        derivs.append(comm*factor)

    return derivs

您也可以在上述功能中使用广播,但是我认为这种方式更加清晰。