Question

我正在使用Stata并调查可变家庭净财富NetWealth）。

我想构建此变量的五分之一并使用以下命令 - 如您所见，我使用调查数据，因此应用调查权重：

xtile Quintile = NetWealth [pw=surveyweight], nq(5)

然后我给出以下命令来检查我得到了什么：

tab Quintile, sum(NetWealth)

结果如下：

      Means, Standard Deviations and Frequencies of DN3001 Net wealth

         5 |
 quantiles |
 of dn3001 |     
-----------+-----------+
         1 |1519.4221
           |43114.959
           |      154
-----------+-----------+
         2 | 135506.67 
           | 74360.816 
           |       179 
-----------+-----------+
         3 | 396712.16 
           |  69715.49 
           |       161 
-----------+-----------+
         4 | 669065.69 
           | 111102.02 
           |       182 
-----------+-----------+
         5 | 2552620.5 
           | 3872350.9 
           |       274 
-----------+-----------+
     Total | 957419.29 
           | 2323329.8 
           |       950

为什么每个五分之一的家庭都有不同数量的家庭？特别是在最后一个五分之一？

我能想出的唯一解释是，当Stata用xtile构造五分位数时，它会从计算中排除那些呈现NetWealth重复值的观察结果。在咨询Stata material时，我也有这种印象。

您怎么看？

Answer 1

如果你没有提供一个独立的例子，你的问题就不能完全重现，但总的来说这里没有谜题。

寻找此类分档的人通常会遇到一个小问题，即他们的观察数量不是他们想要的基于分位数的分箱数量的倍数（意味着，确切的倍数），但在您的情况下不会像计算一样< / p>

.  di 154 + 179 + 161 + 182 + 274
950

显示您有950个观察值，即5 x 190.

更大的交易 - 这里，几乎总是 - 来自Stata的规则，即不同观察中的相同的值必须分配给同一个bin 。因此，关系可能是这里的问题。

您可能有三种可能的解决方案。只有一个涉及直接编码。

与之共存。
做点别的事。例如，为什么你这样做？为什么不使用原始数据？
尝试不同的边界条件。要做到这一点，只需否定变量并将该版本加入。然后边界上的值将跳跃不同。

在我看来，将随机噪音添加到单独的领带是绝对不可原谅的。它不可重复（除了平凡地使用相同的程序和相同的设置），并且对于其他变量的相同观察值，它将具有不同的含义。

以下是＃3无效的示例，但有时会这样做：

. sysuse auto, clear
(1978 Automobile Data)

. xtile bin5 = mpg, nq(5)

. gen negmpg = -mpg

. xtile bin5_2 = negmpg, nq(5)

. tab bin5

5 quantiles |
     of mpg |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |         18       24.32       24.32
          2 |         17       22.97       47.30
          3 |         13       17.57       64.86
          4 |         12       16.22       81.08
          5 |         14       18.92      100.00
------------+-----------------------------------
      Total |         74      100.00

. tab bin5_2

5 quantiles |
  of negmpg |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |         19       25.68       25.68
          2 |         12       16.22       41.89
          3 |         16       21.62       63.51
          4 |         13       17.57       81.08
          5 |         14       18.92      100.00
------------+-----------------------------------
      Total |         74      100.00

另见this paper

我在文档中看不到任何暗示，xtile会以你暗示的方式忽略观察。你没有给出精确的报价支持。除非有这样的指示，否则排除任何非缺失值是不正常的。

我不直接在这里评论使用pweight，除了使用pweight可能是一个复杂的因素。

昆泰有不同的观察数量

1 个答案: