Question

我是离散选择建模的新手，所以如果我误解了分析的一个基本方面，我深表歉意。

我想用一个特定于个体的变量进行离散选择分析，而我认为是替代特定的属性变量。从mlogit小插图中，我认为特定于个体的变量是“选择特定情况的协变量”（在新的小插图中），而替代特定的属性变量是“具有通用系数的替代性特定的协变量”（再次在新的小插图中）。特定于替代方案的属性变量对不同的替代方案不应有不同的影响，因此我认为适用于所有替代方案的通用系数是有序的。

让我们以Fishing数据集为例。

library(mlogit)

data(Fishing)
Fish1 <- dfidx(Fishing, varying=2:9, choice="mode", idnames=c("chid", "alt"),
    drop.index=F)
Fish1

...这使我们：

~~~~~~~
 first 10 observations out of 4728
~~~~~~~
    mode   income     alt   price  catch chid    idx
1  FALSE 7083.332   beach 157.930 0.0678    1 1:each
2  FALSE 7083.332    boat 157.930 0.2601    1 1:boat
3   TRUE 7083.332 charter 182.930 0.5391    1 1:rter
4  FALSE 7083.332    pier 157.930 0.0503    1 1:pier
5  FALSE 1250.000   beach  15.114 0.1049    2 2:each
6  FALSE 1250.000    boat  10.534 0.1574    2 2:boat
7   TRUE 1250.000 charter  34.534 0.4671    2 2:rter
8  FALSE 1250.000    pier  15.114 0.0451    2 2:pier
9  FALSE 3750.000   beach 161.874 0.5333    3 3:each
10  TRUE 3750.000    boat  24.334 0.2413    3 3:boat```

然后我们拟合模型：

(fit1 <- mlogit(mode ~ price+catch | income | 1, data=Fish1))

...这使我们：

Call:
mlogit(formula = mode ~ price + catch | income | 1, data = Fish1,     method = "nr")

Coefficients:
   (Intercept):boat  (Intercept):charter     (Intercept):pier                price
        0.527278790          1.694365710          0.777959401         -0.025116570
              catch          income:boat       income:charter          income:pier
        0.357781958          0.000089440         -0.000033292         -0.000127577

到目前为止一切顺利。

现在，让我们将价格和价格（替代属性变量）的值重新编码为可变的，但各个不变的：

Fishing2 <- Fishing

Fishing2$price.beach   <- 50
Fishing2$price.pier    <- 100
Fishing2$price.boat    <- 150
Fishing2$price.charter <- 200
Fishing2$catch.beach   <- .2
Fishing2$catch.pier    <- .5
Fishing2$catch.boat    <- .75
Fishing2$catch.charter <- .87

Fish2 <- dfidx(Fishing2, varying=2:9, choice="mode", idnames=c("chid", "alt"),
    drop.index=F)

Fish2

...这使我们：

~~~~~~~
 first 10 observations out of 4728
~~~~~~~
    mode   income     alt price catch chid    idx
1  FALSE 7083.332   beach    50  0.20    1 1:each
2  FALSE 7083.332    boat   150  0.75    1 1:boat
3   TRUE 7083.332 charter   200  0.87    1 1:rter
4  FALSE 7083.332    pier   100  0.50    1 1:pier
5  FALSE 1250.000   beach    50  0.20    2 2:each
6  FALSE 1250.000    boat   150  0.75    2 2:boat
7   TRUE 1250.000 charter   200  0.87    2 2:rter
8  FALSE 1250.000    pier   100  0.50    2 2:pier
9  FALSE 3750.000   beach    50  0.20    3 3:each
10  TRUE 3750.000    boat   150  0.75    3 3:boat

在我看来，这就像单选产品的比较：每个备选方案都有一组固定的属性（具有一般系数的替代特定属性变量），这些属性可能会影响个人的决策。个人的收入，即因个人而异（或来自新小插图的因选择情况而异）的变量，也可能影响决策，尽管该收入必须随小插图所示而变化。

但是，当我尝试为Fish2数据集运行模型时，它会失败：

fit2 <- mlogit(mode ~ price+catch | income | 1, data=Fish2)
Error in solve.default(H, g[!fixed]) :
  system is computationally singular: reciprocal condition number = 3.18998e-23

我猜这是一个事实，即替代特定属性变量在选择情况下不会发生变化，这是一个问题，但我不知道为什么或如何解决。好像我应该能够使用mlogit分析这种情况一样。

如果还有另一种分析技术可以更好地解决此类问题，我愿意提出建议。

Answer 1

您收到的错误消息通常是数据变化不足的结果。如果变化不充分，则Hessian矩阵（信息矩阵的负数）将变为奇异且无法求逆，即无法获得标准误差。关于此特定错误消息有很多答案。例如here。

在您的第二个示例中，如果我理解正确，那么对于所有个人而言，每种选择都是相同的，这意味着您只有四个不同的观察值，每个钓鱼地点都有一个观察值。当您进行多次观察时，您仍然只有4个独特的观察结果，但是您试图拟合8个参数。这很可能是您的模型失败的原因。

Answer 2

因此，事实证明，如果您包含具有通用系数的替代特定协变量并允许包含截距，则存在多重共线性问题。在mlogit插图中：

替代性特定变量的处理与具有一般系数的替代性和选择情况特定变量的区别不大。但是，如果引入这些变量中的某些变量，则只能在没有截距的模型中估计参数，以避免完美的多重共线性。

如果我删除了拦截点：

(fit2 <- mlogit(mode ~ price+catch - 1 | income - 1, data=Fish2))

一切正常：

Call:
mlogit(formula = mode ~ price + catch - 1 | income - 1, data = Fish2, method = "nr")

 Coefficients:
          price           catch     income:boat  income:charter     income:pier  
   0.0117786865   -0.9155791943    0.0001061285    0.0000037033   -0.0000411957

R：我可以使用mlogit分析非可变的，各个替代项的特定属性变量吗？

2 个答案: