如何使用purrr和tidyr修改嵌套数据框中的列类型

时间:2018-08-17 15:43:41

标签: r tidyverse tidyr purrr

我正在将许多源文件中的数据读取到嵌套的数据框中。某些列的数据类型不兼容,导致tidyr::unnest()函数无法正常工作。

例如,下面是一个基于iris数据集的嵌套数据框:

irisnested <- iris %>% 
    rename_all(tolower) %>% 
    group_by(species) %>% 
    nest()

要重新创建我的问题,请在嵌套数据框的data列表列的子数据框中之一中更改列类型:

irisnested$data[[2]]$sepal.length <- as.character(irisnested$data[[2]]$sepal.length)

现在数据框不再可以取消嵌套:

irisnested %>% 
    unnest(data)
# Error in bind_rows_(x, .id) : Column `sepal.length` can't be converted from numeric to character

要纠正每个嵌套数据框中的列类型,我使用了一个匿名函数:

irisnested %>% 
    mutate(data = map(data,
                      function(dtf){
                          dtf$sepal.length = as.numeric(dtf$sepal.length)
                          return(dtf)
                      })) %>% 
    unnest(data)

现在可以再次取消嵌套数据帧。但是这个匿名函数看起来很复杂,我直觉必须要有另一种方法。是否有更好的方法来执行此修改,例如使用modify_at

1 个答案:

答案 0 :(得分:3)

我们可以使用~,以.x的形式获取数据,然后使用mutate更改感兴趣的列的类型

irisnested %>% 
   mutate(data = map(data, ~ 
                       .x %>% 
                         mutate(sepal.length = as.numeric(sepal.length))))