使用Haven :: read_sas读取数据后,使用dplyr中的pull()保留属性。如何避免?

时间:2019-01-31 11:19:56

标签: r dplyr r-haven

我正在处理最初作为.sas7bdat文件出现的几个数据集。

最初,我使用sas7bdat软件包加载了所有文件,但现在我确信haven软件包可以做得更好,更快。

但是,当使用haven::read_(sas)中的sas7bdat::read.sas7bdat()时,pull()的新加载数据似乎与dplyr有所不同:

library("haven")
library("dplyr")
#> 
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#> 
#>     filter, lag
#> The following objects are masked from 'package:base':
#> 
#>     intersect, setdiff, setequal, union
library("sas7bdat")

data.sas7 <- sas7bdat::read.sas7bdat(system.file("examples", "iris.sas7bdat", package = "haven"))
data.sas7 %>% summarise(mean = mean(Petal_Length)) %>% pull
#> [1] 3.758

data.haven <- haven::read_sas(system.file("examples", "iris.sas7bdat", package = "haven"))
data.haven %>% summarise(mean = mean(Petal_Length)) %>% pull
#> [1] 3.758
#> attr(,"format.sas")
#> [1] "BEST"

reprex package(v0.2.1)于2019-01-31创建

从上面的示例可以看出,当使用attr()加载数据时,也会打印haven。例如,当我想要在rmarkdown中打印结果时,这是不实际的。

我的问题是:在pull()加载数据时,如何避免在使用dplyr表单haven时打印属性?

1 个答案:

答案 0 :(得分:2)

首先让我们重现相似的数据:

iris2 <- iris
attr(iris2$Petal.Length,"format.sas") <- "BEST"
iris2 %>% 
  summarise(mean = mean(Petal.Length)) %>% 
  pull
# [1] 3.758
# attr(,"format.sas")
# [1] "BEST"

然后看到我在这里使用的第一行,它去除了所有列的属性"format.sas"

iris2 %>% 
  mutate_all(`attr<-`,"format.sas", NULL) %>% 
  summarise(mean = mean(Petal.Length)) %>% 
  pull
# [1] 3.758

如果要删除所有属性:

iris2 %>% 
  mutate_all(`attributes<-`, NULL) %>% 
  summarise(mean = mean(Petal.Length)) %>% 
  pull

# [1] 3.758