在R中嵌入嵌套的data.frames列表

时间:2018-01-07 16:55:05

标签: r dplyr tidyr jsonlite

设定:

我有一个带有嵌入式data.frames列表的tibble(命名数据)。

df1 <- data.frame(name = c("columnName1","columnName2","columnName3"),
                  value = c("yes", 1L, 0L),
                  stringsAsFactors = F)

df2 <- data.frame(name = c("columnName1","columnName2","columnName3"),
                  value = c("no", 1L, 1L),
                  stringsAsFactors = F)

df3 <- data.frame(name = c("columnName1","columnName2","columnName3"),
                  value = c("yes", 0L, 0L),
                  stringsAsFactors = F)

responses = list(df1,
                 df2,
                 df3)

data <- tibble(ids = c(23L, 42L, 84L),
               responses = responses)

请注意,这是数据的简化示例。原始数据来自平面json文件,并加载了jsonlite::stream_in()函数。

目的:

我的目标是将这个tibble转换为另一个tibble,其中嵌入的data.frames作为列传播(转置);例如,我的目标是:

goal <- tibble(ids = c(23L, 42L, 84L),
               columnName1 = c("yes","no","yes"),
               columnName2 = c(1L, 1L, 0L),
               columnName3 = c(0L, 1L, 0L))

# goal tibble
> goal
# A tibble: 3 x 4
    ids columnName1 columnName2 columnName3
  <int> <chr>             <int>       <int>
1    23 yes                   1           0
2    42 no                    1           1
3    84 yes                   0           0

我不优雅的解决方案:

使用dplyr::bind_rows()tidyr::spread()

rdf <- dplyr::bind_rows(data$responses, .id = "id") %>%
  tidyr::spread(key = "name", -id)

goal2 <- cbind(ids = data$ids, rdf[,-1]) %>%
  as.tibble()

将我的解决方案与目标进行比较:

# produced tibble
> goal2
# A tibble: 3 x 4
    ids columnName1 columnName2 columnName3
* <int> <chr>       <chr>       <chr>      
1    23 yes         1           0          
2    42 no          1           1          
3    84 yes         0           0          

总的来说,我的解决方案有效,但有一些问题:

  1. 我不知道如何通过bind_rows()传递唯一ID,这迫使我创建一个无法匹配的虚拟ID(&#34; id&#34;)到原始ID(&#34; ids&#34;)。这迫使我使用cbind()(我不喜欢)并手动删除虚拟ID(在rdf上使用-1切片)。

  2. 当我的方法将整数列转换为字符时,列的格式会丢失。

  3. 有关如何改进我的解决方案的任何建议(特别是使用tidyjson或tidyr等基于tidyverse的软件包)?

1 个答案:

答案 0 :(得分:2)

我们可以循环回复&#39;列mapspread列为&#39;宽&#39;使用convert = TRUE以便列类型,将其创建为包含transmute的列然后unnest

library(tidyverse)
data %>% 
     transmute(ids, ind = map(responses, ~.x %>% 
                                  spread(name, value, convert = TRUE)))  %>%
     unnest
# A tibble: 3 x 4
#    ids columnName1 columnName2 columnName3
#   <int> <chr>             <int>       <int>
#1    23 yes                   1           0
#2    42 no                    1           1
#3    84 yes                   0           0

或者使用OP的代码,我们将list的名称设置为&#39; ID&#39;列,执行bind_rows然后spread

bind_rows(setNames(data$responses, data$ids), .id = 'ids') %>% 
            spread(name, value, convert = TRUE)