我正在尝试与CDC的NHAMCS 2011-2014数据的同事合作,但他有SAS而我只有R(因为它是免费的)。
这些数据应该可以在这里找到:https://www.cdc.gov/nchs/ahcd/ahcd_questionnaires.htm
但是,根据文档,它的格式为SAS,SPSS或STATA。文件以我以前从未见过的方式分解。我以前能够将文件下载到R中,但是当我在这里下载zip文件并尝试在R中打开它时,我会得到无意义的字符串,没有列标题。
过去我成功使用以下代码获取NHANES数据:
tf <- tempfile()
download.file("https://wwwn.cdc.gov/Nchs/Nhanes/2013-2014/DEMO_H.XPT", tf, mode="wb")
DEMO <- read.xport(tf)
有没有办法为NHAMCS 2011-2014重做这个?
答案 0 :(得分:2)
数据文件本身不具备SAS(xpt或sas7bdat)格式。但是,您可以下载Stata数据集。例如,这在这里工作正常:
download.file(url = "ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/dataset_documentation/nhamcs/stata/ed2014-stata.zip",
destfile = "ed2014-stata.zip")
unzip("ed2014-stata.zip")
library(haven)
nhamcs2014 <- read_dta("ed2014-stata.dta")
答案 1 :(得分:0)
这些文件以自解压缩格式(可能特定于Windows)或ZIP fomats分发。当我扩展2015年的zip文件时,它的起始大小为2.3 MB,变为55MB。该文件采用固定的字段格式,R具有read.fwf函数,可以处理该文件。此外,大多数美国公共使用数据集都有@AnthonyDamico记录的访问方法,尽管这似乎是他错过的。 SAS输入语句位于:ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Dataset_Documentation/NHAMCS/sas/。尽管如此,一旦您将三年的数据及其相关的SAS输入程序汇总在一起,他的SAScii软件包无疑将非常有用。