我知道如何计算变量的平均值而没有缺失值,但我不确定是否用缺失值计算它。例如,我们有6个区域大厅如下:
area_hall_1 area_hall_2 area_hall_3 area_hall_4 area_hall_5 area_hall_6
580 580 650 . . .
1000 1000 . . .
825 825 . . . .
912 912 . . . .
670 . . . . .
790 . . . . .
750 900 1000 1000 900 750
答案 0 :(得分:0)
报告的(或相当隐含的)问题没有任何意义。考虑发布的数据(第二次观察需要额外的缺失值)。
. clear
. input area_hall_1 area_hall_2 area_hall_3 area_hall_4 area_hall_5 area_hall_6
area_ha~1 area_ha~2 area_ha~3 area_ha~4 area_ha~5 area_ha~6
1. 580 580 650 . . .
2. 1000 1000 . . . .
3. 825 825 . . . .
4. 912 912 . . . .
5. 670 . . . . .
6. 790 . . . . .
7. 750 900 1000 1000 900 750
8. end
. egen area_hall_mean = rowmean(area_hall_?)
. egen area_hall_count = rownonmiss(area_hall_?)
. l *_mean *_count , sep(0)
+---------------------+
| area_h~n area_h~t |
|---------------------|
1. | 603.3333 3 |
2. | 1000 2 |
3. | 825 2 |
4. | 912 2 |
5. | 670 1 |
6. | 790 1 |
7. | 883.3333 6 |
+---------------------+
. di (580+580+650)/3
603.33333
egen
函数rowmean()
忽略缺失值。怎么会这样呢?唯一的另一种可能性是报告由于存在缺失值而无法计算均值。这是可以辩护的,但并不是典型的Stata风格。因此报告的手段正是OP想要的手段。使用display
的独立计算表明报告的平均值是所需的。 (一个深刻的怀疑论者可以自由地使用viewsource _growmean.ado
检查代码。)