我知道一种查找和识别特定变量缺失值的方法。
对于变量avedmajor
,我可以做
tab avedmajor, m
然后,
gen avedmajormissing=0
replace avedmajormissing=1 if avedmajor==.
但是如何查看我的数据集是否在任何变量中都缺少值而不经过每一个变量?
感谢。
答案 0 :(得分:4)
一个命令是:
misstable summarize
但另见:
help missing##useful
更一般地说:
help missing
答案 1 :(得分:3)
我将mdesc
命令添加到建议的解决方案中。根据{{3}} mdesc
:
生成一个表,其中包含缺失值的数量,总数 varlist中的每个变量的大小写和丢失百分比。 mdesc工作 包含数字和字符变量。
misstable
解决方案的优势在于,它可以同时使用数字和字符串变量。
sysuse auto
mdesc
很好地概述了缺失:
Variable | Missing Total Percent Missing
----------------+-----------------------------------------------
make | 0 74 0.00
price | 0 74 0.00
mpg | 0 74 0.00
rep78 | 5 74 6.76
headroom | 0 74 0.00
trunk | 0 74 0.00
weight | 0 74 0.00
length | 0 74 0.00
turn | 0 74 0.00
displacement | 0 74 0.00
gear_ratio | 0 74 0.00
foreign | 0 74 0.00
----------------+-----------------------------------------------
答案 2 :(得分:1)
missings
提供了一系列子命令。
search dm0085
将生成指向该文件最新版本的可点击链接。
the Stata Journal中的记录将于2018年12月或2019年1月出版 Stata Journal 18(4)后面的付费专栏后面出现。
在此之前,甚至之后,示例in the Statalist announcement给出了很多味道。
这是一个令牌:
. webuse nlswork, clear
(National Longitudinal Survey. Young Women 14-26 years of age in 1968)
. missings report
Checking missings in all variables:
15082 observations with missing values
age 24
msp 16
nev_mar 16
grade 2
not_smsa 8
c_city 8
south 8
ind_code 341
occ_code 121
union 9296
wks_ue 5704
tenure 433
hours 67
wks_work 703
. missings report, min(1000)
Checking missings in all variables:
15082 observations with missing values
union 9296
wks_ue 5704
此命令被视为取代nmissing
。
2014年7月9日之后的原始帖子
各种命令有帮助。参见例如codebook
。对于一个用户编写的命令,请安装nmissing
。
. search nmissing, historical
Search of official help files, FAQs, Examples, SJs, and STBs
FAQ . . . . . . Can I quickly see how many missing values a variable has?
. . . . . . . . . . . . . . . . . . UCLA Academic Technology Services
7/08 http://www.ats.ucla.edu/stat/stata/faq/nmissing.htm
Example . . . . . . . . . . . . . . . . . . . . Useful non-UCLA Stata programs
. . . . . . . . . . . . . . . . . . UCLA Academic Technology Services
7/08 http://www.ats.ucla.edu/stat/ado/world/
SJ-5-4 dm67_3 . . . . . . . . . . Software update for nmissing and npresent
(help nmissing if installed) . . . . . . . . . . . . . . . N. J. Cox
Q4/05 SJ 5(4):607
now produces saved results
SJ-3-4 sg67_2 . . . . . . . . . . Software update for nmissing and npresent
(help nmissing, npresent if installed) . . . . . . . . . . N. J. Cox
Q4/03 SJ 3(4):449
updated to include support for by, options for checking
string values that contain spaces or periods, documentation
of extended missing values .a to .z, and improved output
STB-60 dm67.1 . . . . Enhancements to numbers of missing and present values
(help nmissing if installed) . . . . . . . . . . . . . . . N. J. Cox
3/01 pp.2--3; STB Reprints Vol 10, pp.7--9
updated with option for reporting on observations
STB-49 dm67 . . . . . . . . . . . . . Numbers of missing and present values
(help nmissing if installed) . . . . . . . . . . . . . . . N. J. Cox
5/99 pp.7--8; STB Reprints Vol 9, pp.26--27
commands to list the numbers of missing values and nonmissing
values in each variable in varlist
以下是一个例子:
. webuse nlswork
(National Longitudinal Survey. Young Women 14-26 years of age in 1968)
. nmissing
age 24
msp 16
nev_mar 16
grade 2
not_smsa 8
c_city 8
south 8
ind_code 341
occ_code 121
union 9296
wks_ue 5704
tenure 433
hours 67
wks_work 703
答案 3 :(得分:1)
另一个选项是来自 SPost 网站的misschk
。输入findit misschk
进行安装。这是一个例子:
sysuse auto,clear
replace price=. if (_n==1|_n==3) // additional missing values
misschk
如果不指定varlist
,misschk
只会检查所有变量。
标准输出为您提供每个变量的缺失值的数量和百分比。
Variables examined for missing values
# Variable # Missing % Missing
--------------------------------------------
1 price 2 2.7
2 mpg 0 0.0
3 rep78 5 6.8
4 headroom 0 0.0
5 trunk 0 0.0
6 weight 0 0.0
7 length 0 0.0
8 turn 0 0.0
9 displacement 0 0.0
10 gear_ratio 0 0.0
11 foreign 0 0.0
它还会计算所有不同的缺失模式。
Missing for |
which |
variables? | Freq. Percent Cum.
---------------+-----------------------------------
1_3__ _____ _ | 1 1.35 1.35
1____ _____ _ | 1 1.35 2.70
__3__ _____ _ | 4 5.41 8.11
_____ _____ _ | 68 91.89 100.00
---------------+-----------------------------------
Total | 74 100.00
最后,它总结了案例中缺失值的数量。
Missing for |
how many |
variables? | Freq. Percent Cum.
------------+-----------------------------------
0 | 68 91.89 91.89
1 | 5 6.76 98.65
2 | 1 1.35 100.00
------------+-----------------------------------
Total | 74 100.00
misschk
还有其他一些简洁的功能,以及help misschk
可以找到的其他选项。