如何将数据导入到适用于SAS,SPSS或STATA的R中?

时间:2015-12-16 06:23:32

标签: r sas data-files

我试图阅读R:http://www.cdc.gov/nchs/nhis/nhis_2011_data_release.htm中的全国健康访谈调查数据。数据为Sample Adult。 SAScii库实际上有一个函数read.SAScii,其文档中包含了我想要使用的相同数据集的示例。问题是"没有工作":

NHIS.11.samadult.SAS.read.in.instructions <- 
  "ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Program_Code/NHIS/2011/SAMADULT.sas"
NHIS.11.samadult.file.location <- 
  "ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2011/samadult.zip"

#store the NHIS file as an R data frame!
NHIS.11.samadult.df <- 
  read.SAScii ( 
    NHIS.11.samadult.file.location , 
    NHIS.11.samadult.SAS.read.in.instructions , 
    zipped = T, )

#or store the NHIS SAS import instructions for use in a 
#read.fwf function call outside of the read.SAScii function
NHIS.11.samadult.sas <- parse.SAScii( NHIS.11.samadult.SAS.read.in.instructions )

#save the data frame now for instantaneous loading later
save( NHIS.11.samadult.df , file = "NHIS.11.samadult.data.rda" )

然而,在运行它时,我收到错误Error in toupper(SASinput) : invalid multibyte string 533

Stack Overflow上的其他类似错误,但对于read.delimread.csv等函数,建议尝试将参数更改为fileEncoding="latin1"read.SAScii的问题是它没有此类参数fileEncoding

请参阅: R: invalid multibyte stringInvalid multibyte string in read.csv

1 个答案:

答案 0 :(得分:2)

万一有人遇到类似的问题,我的问题和解决方案就是在运行options( encoding = "windows-1252" )的上述代码之前运行read.SAScii,因为ASCII文件适用于SAS,因此在Windows上。我正在使用Linux。

SAScii库的作者实际上有另一个Github存储库asdfree,其中包含用于下载所有可用年份的CDC-NHIS数据集的工作代码以及来自各种调查的许多其他数据集,例如美国住房调查,FDA药物调查等等。

以下链接指向作者对此问题中问题的解决方案。从那里,您可以轻松找到asdfree存储库的链接:https://github.com/ajdamico/SAScii/issues/3

就此数据集而言,https://github.com/ajdamico/asdfree/blob/master/National%20Health%20Interview%20Survey/download%20all%20microdata.R#L8-L13中的代码可以解决问题,但它不会将列编码为因子或数字。好处是,对于NHIS年份中的任何给定数据集,只有不到十到二十个数字列,其中逐个编码这些数字不是那么痛苦,并且将其余列编码为数字只需要一个循环遍历非数字列。

对我来说最简单的解决方案,因为我只需要2011年的Sample Adult数据集,而且能够安装SAS的计算机,就是运行{{3}中包含的SAS程序根据需要对列进行编码。最后,我使用proc export将sas数据集导出到CSV文件中,然后我轻松地在R中打开,除了处理缺失值之外没有必要的数据编辑。

如果你想使用样本成人以外的NHIS数据集,值得注意的是,当我运行2010年“成人癌症样本”(http://www.cdc.gov/nchs/nhis/nhis_2011_data_release.htm)的可用SAS程序并将数据导出为CSV时,当我尝试读取R中的CSV文件时,列名比实际列少,这是一个问题。跳过第一行可以解决此问题,但是会丢失描述性列名。但是,您可以轻松导入相同的数据,而无需使用asdfree存储库中的R代码进行编码。请阅读那里的文档以获取更多信息。