导入具有避货

时间:2016-01-15 18:27:26

标签: r label stata r-haven

在R中,某些包(例如haven)将label属性插入变量(例如haven),这解释了变量的实质名称。例如,gdppc可能带有标签GDP per capita

这非常有用,尤其是从Stata导入数据时。但是,我仍然很难知道如何在我的工作流程中使用它。

  1. 如何快速浏览变量和变量标签?现在我必须做attributes(df$var),但这一点不太方便(la names(df)

  2. 如何在地块中使用这些标签?同样,我可以使用attr(df$var, "label")来访问字符串标签。但是,这似乎很麻烦。

  3. 有没有官方方法在工作流程中使用这些标签?我当然可以编写一个包含attr的自定义函数,但是当包实现label属性时,它可能会中断。因此,理想情况下我需要haven(或其他主要包)支持的官方方式。

6 个答案:

答案 0 :(得分:12)

purrr package from tidyverse的解决方案:

df %>% map_chr(~attributes(.)$label)

答案 1 :(得分:6)

在简单函数中使用sapply返回变量列表,就像在Stata的变量窗口中一样:

{}

答案 2 :(得分:3)

这是rio中提到的创新之一(完全披露:我写了这个包)。基本上,它提供了各种导入变量标签的方法,包括避风港的做事方式和外国方式。这是一个简单的例子:

首先制作一个可重现的例子:

> library("rio")
> export(iris, "iris.dta")

使用foreign::read.dta()导入(通过rio::import()):

> str(import("iris.dta", haven = FALSE))
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
 - attr(*, "datalabel")= chr ""
 - attr(*, "time.stamp")= chr "15 Jan 2016 20:05"
 - attr(*, "formats")= chr  "" "" "" "" ...
 - attr(*, "types")= int  255 255 255 255 253
 - attr(*, "val.labels")= chr  "" "" "" "" ...
 - attr(*, "var.labels")= chr  "" "" "" "" ...
 - attr(*, "version")= int -7
 - attr(*, "label.table")=List of 1
  ..$ Species: Named int  1 2 3
  .. ..- attr(*, "names")= chr  "setosa" "versicolor" "virginica"

使用其原生变量属性使用haven::read_dta()读入,因为属性存储在data.frame级别而不是变量级别:

> str(import("iris.dta", haven = TRUE, column.labels = TRUE))
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     :Class 'labelled'  atomic [1:150] 1 1 1 1 1 1 1 1 1 1 ...
  .. ..- attr(*, "labels")= Named int [1:3] 1 2 3
  .. .. ..- attr(*, "names")= chr [1:3] "setosa" "versicolor" "virginica"

使用haven::read_dta()使用我们(rio开发人员)发现更方便的替代方案进行阅读:

> str(import("iris.dta", haven = TRUE))
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
 - attr(*, "var.labels")=List of 5
  ..$ Sepal.Length: NULL
  ..$ Sepal.Width : NULL
  ..$ Petal.Length: NULL
  ..$ Petal.Width : NULL
  ..$ Species     : NULL
 - attr(*, "label.table")=List of 5
  ..$ Sepal.Length: NULL
  ..$ Sepal.Width : NULL
  ..$ Petal.Length: NULL
  ..$ Petal.Width : NULL
  ..$ Species     : Named int  1 2 3
  .. ..- attr(*, "names")= chr  "setosa" "versicolor" "virginica"

通过将属性移动到data.frame的级别,使用attr(data, "label.var")等更容易访问它们,而不是挖掘每个变量的属性。

注意:属性的值将为NULL,因为我只是将本机R数据集写入本地文件,以使其可重现。

答案 3 :(得分:1)

使用escape the forward slash包(tidyverse)的简单解决方案

{{1}}

答案 4 :(得分:1)

labelled包的目的是提供方便的函数来操作随haven导入的变量和值标签。

此外,lookfor包中的函数describequestionr对于显示变量和值标签也很有用。

答案 5 :(得分:0)

使用haven包强制一个因子

haven::as_factor(df$var, levels="label")