昆泰有不同的观察数量

时间:2016-12-02 10:55:24

标签: stata quantile percentile

我正在使用Stata并调查可变家庭净财富NetWealth)。

我想构建此变量的五分之一并使用以下命令 - 如您所见,我使用调查数据,因此应用调查权重:

xtile Quintile = NetWealth [pw=surveyweight], nq(5)

然后我给出以下命令来检查我得到了什么:

tab Quintile, sum(NetWealth)

结果如下:

      Means, Standard Deviations and Frequencies of DN3001 Net wealth

         5 |
 quantiles |
 of dn3001 |     
-----------+-----------+
         1 |1519.4221
           |43114.959
           |      154
-----------+-----------+
         2 | 135506.67 
           | 74360.816 
           |       179 
-----------+-----------+
         3 | 396712.16 
           |  69715.49 
           |       161 
-----------+-----------+
         4 | 669065.69 
           | 111102.02 
           |       182 
-----------+-----------+
         5 | 2552620.5 
           | 3872350.9 
           |       274 
-----------+-----------+
     Total | 957419.29 
           | 2323329.8 
           |       950 

为什么每个五分之一的家庭都有不同数量的家庭?特别是在最后一个五分之一?

我能想出的唯一解释是,当Stata用xtile构造五分位数时,它会从计算中排除那些呈现NetWealth重复值的观察结果。在咨询Stata material时,我也有这种印象。

您怎么看?

1 个答案:

答案 0 :(得分:1)

如果你没有提供一个独立的例子,你的问题就不能完全重现,但总的来说这里没有谜题。

寻找此类分档的人通常会遇到一个小问题,即他们的观察数量不是他们想要的基于分位数的分箱数量的倍数(意味着,确切的倍数),但在您的情况下不会像计算一样< / p>

.  di 154 + 179 + 161 + 182 + 274
950

显示您有950个观察值,即5 x 190.

更大的交易 - 这里,几乎总是 - 来自Stata的规则,即不同观察中的相同的值必须分配给同一个bin 。因此,关系可能是这里的问题。

您可能有三种可能的解决方案。只有一个涉及直接编码。

  1. 与之共存。

  2. 做点别的事。例如,为什么你这样做?为什么不使用原始数据?

  3. 尝试不同的边界条件。要做到这一点,只需否定变量并将该版本加入。然后边界上的值将跳跃不同。

  4. 在我看来,将随机噪音添加到单独的领带是绝对不可原谅的。它不可重复(除了平凡地使用相同的程序和相同的设置),并且对于其他变量的相同观察值,它将具有不同的含义。

    以下是#3无效的示例,但有时会这样做:

    . sysuse auto, clear
    (1978 Automobile Data)
    
    . xtile bin5 = mpg, nq(5)
    
    . gen negmpg = -mpg
    
    . xtile bin5_2 = negmpg, nq(5)
    
    . tab bin5
    
    5 quantiles |
         of mpg |      Freq.     Percent        Cum.
    ------------+-----------------------------------
              1 |         18       24.32       24.32
              2 |         17       22.97       47.30
              3 |         13       17.57       64.86
              4 |         12       16.22       81.08
              5 |         14       18.92      100.00
    ------------+-----------------------------------
          Total |         74      100.00
    
    . tab bin5_2
    
    5 quantiles |
      of negmpg |      Freq.     Percent        Cum.
    ------------+-----------------------------------
              1 |         19       25.68       25.68
              2 |         12       16.22       41.89
              3 |         16       21.62       63.51
              4 |         13       17.57       81.08
              5 |         14       18.92      100.00
    ------------+-----------------------------------
          Total |         74      100.00
    

    另见this paper

    第4节中的一些讨论

    我在文档中看不到任何暗示,xtile会以你暗示的方式忽略观察。你没有给出精确的报价支持。除非有这样的指示,否则排除任何非缺失值是不正常的。

    我不直接在这里评论使用pweight,除了使用pweight可能是一个复杂的因素。