将数据框分成列表中的几个数据框,每列分别

时间:2020-09-10 12:48:50

标签: r list for-loop dplyr split

我有一个数据框df,其第一列是字符向量,其余数字是数字。

示例数据框:

df <- data.frame(my_names=sample(LETTERS,4,replace=F),
                 column2=sample(1.3:100.3,4,replace=T),
                 column3=sample(1.3:100.3,4,replace=T),
                 column4=sample(1.3:100.3,4,replace=T),
                 column5=sample(1.3:100.3,4,replace=T))
> df
  my_names column2 column3 column4 column5
1        A     8.3     1.3    19.3    91.3
2        E    18.3    42.3     8.3    76.3
3        O     6.3    46.3    26.3    91.3
4        M    73.3     6.3    59.3    93.3

现在我要创建4个不同的数据框,如下所示:

  • d1:my_names和column2
  • d2:my_names和column3
  • d3:my_names和column4
  • d4:my_names和column5

并将它们存储在列表中。 d1如下:

> d1
  my_names column2
1        A     8.3
2        E    18.3
3        O     6.3
4        M    73.3

我尝试过:

>the_list <- vector("list",ncol(df)-1)
> for(i in 1:length(the_list)){ for(j in 2:ncol(df)){
+   the_list[[i]] <- select(df, my_names,j)
+ }
+ }
Note: Using an external vector in selections is ambiguous.
ℹ Use `all_of(j)` instead of `j` to silence this message.

但是我得到一个列表,其中所有数据帧都带有column5

    > str(the_list)
List of 4
 $ :'data.frame':   4 obs. of  2 variables:
  ..$ my_names: chr [1:4] "A" "E" "O" "M"
  ..$ column5 : num [1:4] 91.3 76.3 91.3 93.3
 $ :'data.frame':   4 obs. of  2 variables:
  ..$ my_names: chr [1:4] "A" "E" "O" "M"
  ..$ column5 : num [1:4] 91.3 76.3 91.3 93.3
 $ :'data.frame':   4 obs. of  2 variables:
  ..$ my_names: chr [1:4] "A" "E" "O" "M"
  ..$ column5 : num [1:4] 91.3 76.3 91.3 93.3
 $ :'data.frame':   4 obs. of  2 variables:
  ..$ my_names: chr [1:4] "A" "E" "O" "M"
  ..$ column5 : num [1:4] 91.3 76.3 91.3 93.3

我从错误中获取建议(使用all_of(j))并写:

> for(i in 1:length(the_list)){ 
  for(j in 2:ncol(df)){
    the_list[[i]] <- select(df, my_names,all_of(j))
  }
  }

但结果与上面相同。

我已经读到一个人可以使用split,但是我没有什么可分组的,它是每一列的。 例如,这不起作用:

new_list<-list(split(df, colnames(df))

我得到一个怪异的清单1。

5 个答案:

答案 0 :(得分:1)

尝试这种tidyverse方法。您可以将数据格式化为long格式,以将列转换为行。然后,使用split(),您可以基于列名创建一个列表。最后,您可以应用函数将数据转换为列表中每个数据帧的宽数据,并获得所需的输出。这里的代码:

library(tidyverse)
#Data
df <- data.frame(my_names=sample(LETTERS,4,replace=F),
                 column2=sample(1.3:100.3,4,replace=T),
                 column3=sample(1.3:100.3,4,replace=T),
                 column4=sample(1.3:100.3,4,replace=T),
                 column5=sample(1.3:100.3,4,replace=T))
#Reshape to long
df2 <- df %>% pivot_longer(cols = -1)
#Split into a list
List <- split(df2,df2$name)
#Now reshape function for wide format
List2 <- lapply(List,function(x){x<-pivot_wider(x,names_from = name,values_from = value);return(x)})
names(List2) <- paste0('df',1:length(List2))

输出:

List2
$df1
# A tibble: 4 x 2
  my_names column2
  <fct>      <dbl>
1 N           21.3
2 H           35.3
3 X           42.3
4 U           89.3

$df2
# A tibble: 4 x 2
  my_names column3
  <fct>      <dbl>
1 N           94.3
2 H           54.3
3 X            2.3
4 U           38.3

$df3
# A tibble: 4 x 2
  my_names column4
  <fct>      <dbl>
1 N           75.3
2 H           94.3
3 X           87.3
4 U          100. 

$df4
# A tibble: 4 x 2
  my_names column5
  <fct>      <dbl>
1 N           60.3
2 H           88.3
3 X           14.3
4 U           99.3

答案 1 :(得分:0)

也许您可以尝试list2env

list2env(
  setNames(
    lapply(seq_along(df)[-1], function(k) cbind(df[c(1, k)])),
    paste0("d", seq_along(df[-1]))
  ),
  envir = .GlobalEnv
)

如果仅需要数据帧列表,则可以删除list2env,即

setNames(
  lapply(seq_along(df)[-1], function(k) cbind(df[c(1, k)])),
  paste0("d", seq_along(df[-1]))
)

给出

$d1
  my_names column2
1        C    45.3
2        M    89.3
3        G    35.3
4        T    48.3

$d2
  my_names column3
1        C    41.3
2        M    56.3
3        G    34.3
4        T    95.3

$d3
  my_names column4
1        C    78.3
2        M     7.3
3        G    60.3
4        T    19.3

$d4
  my_names column5
1        C    76.3
2        M    51.3
3        G    96.3
4        T    96.3

答案 2 :(得分:0)

使用lapply

data <- lapply(seq_along(df[-1]), function(x) cbind(df[1], df[x+1]))

data将具有数据帧列表。如果要在单独的数据框中使用它们,请为它们命名并使用list2env

names(data) <- paste0('d', seq_along(data))
list2env(data, .GlobalEnv)

答案 3 :(得分:0)

带有base的{​​{1}}解决方案。

lapply()

lapply(seq_along(df)[-1], function(x) df[c(1, x)])

然后,您可以使用lapply(names(df)[-1], function(x) df[c("my_names", x)]) 为列表分配名称。

答案 4 :(得分:0)

使用purrrdplyr的一个选项可能是:

map(2:length(df),
    ~ df %>%
     select(1, all_of(.x)))

[[1]]
  my_names column2
1        N    21.3
2        S    91.3
3        T    50.3
4        F    34.3

[[2]]
  my_names column3
1        N    84.3
2        S    20.3
3        T     1.3
4        F    61.3

[[3]]
  my_names column4
1        N     4.3
2        S     9.3
3        T    93.3
4        F    58.3

[[4]]
  my_names column5
1        N    33.3
2        S    61.3
3        T    12.3
4        F    91.3

如果您对命名列表感兴趣:

set_names(map(2:length(df),
              ~ df %>%
               select(1, all_of(.x))),
          paste0("df", 2:length(df) - 1))