我正在使用Stata并调查可变家庭净财富NetWealth
)。
我想构建此变量的五分之一并使用以下命令 - 如您所见,我使用调查数据,因此应用调查权重:
xtile Quintile = NetWealth [pw=surveyweight], nq(5)
然后我给出以下命令来检查我得到了什么:
tab Quintile, sum(NetWealth)
结果如下:
Means, Standard Deviations and Frequencies of DN3001 Net wealth
5 |
quantiles |
of dn3001 |
-----------+-----------+
1 |1519.4221
|43114.959
| 154
-----------+-----------+
2 | 135506.67
| 74360.816
| 179
-----------+-----------+
3 | 396712.16
| 69715.49
| 161
-----------+-----------+
4 | 669065.69
| 111102.02
| 182
-----------+-----------+
5 | 2552620.5
| 3872350.9
| 274
-----------+-----------+
Total | 957419.29
| 2323329.8
| 950
为什么每个五分之一的家庭都有不同数量的家庭?特别是在最后一个五分之一?
我能想出的唯一解释是,当Stata用xtile
构造五分位数时,它会从计算中排除那些呈现NetWealth重复值的观察结果。在咨询Stata material时,我也有这种印象。
您怎么看?
答案 0 :(得分:1)
如果你没有提供一个独立的例子,你的问题就不能完全重现,但总的来说这里没有谜题。
寻找此类分档的人通常会遇到一个小问题,即他们的观察数量不是他们想要的基于分位数的分箱数量的倍数(意味着,确切的倍数),但在您的情况下不会像计算一样< / p>
. di 154 + 179 + 161 + 182 + 274
950
显示您有950个观察值,即5 x 190.
更大的交易 - 这里,几乎总是 - 来自Stata的规则,即不同观察中的相同的值必须分配给同一个bin 。因此,关系可能是这里的问题。
您可能有三种可能的解决方案。只有一个涉及直接编码。
与之共存。
做点别的事。例如,为什么你这样做?为什么不使用原始数据?
尝试不同的边界条件。要做到这一点,只需否定变量并将该版本加入。然后边界上的值将跳跃不同。
在我看来,将随机噪音添加到单独的领带是绝对不可原谅的。它不可重复(除了平凡地使用相同的程序和相同的设置),并且对于其他变量的相同观察值,它将具有不同的含义。
以下是#3无效的示例,但有时会这样做:
. sysuse auto, clear
(1978 Automobile Data)
. xtile bin5 = mpg, nq(5)
. gen negmpg = -mpg
. xtile bin5_2 = negmpg, nq(5)
. tab bin5
5 quantiles |
of mpg | Freq. Percent Cum.
------------+-----------------------------------
1 | 18 24.32 24.32
2 | 17 22.97 47.30
3 | 13 17.57 64.86
4 | 12 16.22 81.08
5 | 14 18.92 100.00
------------+-----------------------------------
Total | 74 100.00
. tab bin5_2
5 quantiles |
of negmpg | Freq. Percent Cum.
------------+-----------------------------------
1 | 19 25.68 25.68
2 | 12 16.22 41.89
3 | 16 21.62 63.51
4 | 13 17.57 81.08
5 | 14 18.92 100.00
------------+-----------------------------------
Total | 74 100.00
第4节中的一些讨论
我在文档中看不到任何暗示,xtile
会以你暗示的方式忽略观察。你没有给出精确的报价支持。除非有这样的指示,否则排除任何非缺失值是不正常的。
我不直接在这里评论使用pweight
,除了使用pweight
可能是一个复杂的因素。