为什么条件logit梯度的实现失败?

时间:2016-09-17 17:02:17

标签: python scipy statistics mathematical-optimization

我已经为条件logit模型写了一个非常简单的似然/梯度实现(解释here) - 可能性很好,但是梯度不正确。我的两个问题是:我对渐变的推导是否正确,如果是这样,我在Python中的实现是否正确?如果在数学论坛中更好地询问,请随意移动。

型号:enter image description here

记录可能性:enter image description here

最后,渐变:enter image description here

这里,i是每个观察,j是观察i中的替代,c是观察i中选择的替代,Xij是i中选择j的特征向量,B是相应的系数。 似然公式应该具有特征向量乘以系数向量。我的错误

我对可能性和渐变的实现如下:

可能性:

def log_likelihood(coefs, observations, config, lasso):
    def func(grp):
        mtrx = grp.as_matrix(config.features)
        dp = np.dot(mtrx, coefs)
        sub = np.log(np.exp(dp).sum())
        inc = (dp * grp['choice']).sum()
        return inc - sub 
    ll = observations.groupby(['observation_id']).apply(func).sum()
    if lasso is not None:
        ll -= (np.abs(coefs).sum() * lasso)
    neg_log = ll * -1
return neg_log

梯度:

def gradient(coefs, observations, config, lasso):
    def func(grp):
        mtrx = grp.as_matrix([config.features])
        tmtrx = mtrx.transpose()
        tmp = np.exp(tmtrx * coefs[:, np.newaxis])
        sub = (tmp * tmtrx).sum(1) / tmp.sum(1)
        inc = (mtrx * grp['choice'][:, np.newaxis]).sum(0)
        ret = inc - sub 
        return ret 
    return -1 * observations.groupby(['observation_id']).apply(func).sum()

这里,coefs是包含系数的numpy数组,观察是一个数据框,其中每一行代表观察中的替代,而列是一个选择列,指示列中的选择为0/1,以及observe_id列,其中观察中的所有替代方案具有相同的id,最后config是包含成员特征的dict。这是包含特征的观测值d列中的列。 注意我在不使用套索参数的情况下进行测试。以下示例数据的示例。

我已经验证了可能性是否正确;但是,使用scipy.optimize.check_grad时,渐变的误差非常大。当没有将渐变传递给scipy.optimize.minimize时,我也能够解决B.渐变评估为我所期望的,所以此时我只能认为我的推导是不正确的,但我不确定原因。

In [27]: df.head(14)
Out[27]: 
          x1        x2        x3  observation_id  choice
0   0.187785  0.435922 -0.475349             211       1
1  -0.935956 -0.405833 -1.753128             211       0
2   0.210424  0.141579  0.415933             211       0
3   0.507025  0.307965 -0.198089             211       0
4   0.080658 -0.125473 -0.592301             211       0
5   0.605302  0.239491  0.287094             293       1
6   0.259580  0.415388 -0.396969             293       0
7  -0.637267 -0.984442 -1.376066             293       0
8   0.241874  0.435922  0.855742             293       0
9   0.831534  0.650425  0.930592             293       0
10 -1.682565  0.435922 -2.517229             293       0
11 -0.149186  0.300299  0.494513             293       0
12 -1.918179 -9.967421 -2.774450             293       0
13 -1.185817  0.295601 -1.974923             293       0

1 个答案:

答案 0 :(得分:0)

推导不正确。在取幂中,我只包括给定系数的偏导数的特征和系数。相反,它应该是所有特征和系数的点积。