我有一个数据表,其中最后一列是一列列表。以下是它的外观:
Col1 | Col2 | ListCol
--------------------------
na | na | [obj1, obj2]
na | na | [obj1, obj2]
na | na | [obj1, obj2]
我想要的是
Col1 | Col2 | Col3 | Col4
--------------------------
na | na | obj1 | obj2
na | na | obj1 | obj2
na | na | obj1 | obj2
我知道所有列表都有相同数量的元素。
编辑:
ListCol中的每个元素都是一个包含两个元素的列表。
答案 0 :(得分:2)
以下是一种方法,使用unnest
和tidyr::spread
...
library(dplyr)
library(tidyr)
#example df
df <- tibble(a=c(1, 2, 3), b=list(c(2, 3), c(4, 5), c(6, 7)))
df %>% unnest(b) %>%
group_by(a) %>%
mutate(col=seq_along(a)) %>% #add a column indicator
spread(key=col, value=b)
a `1` `2`
<dbl> <dbl> <dbl>
1 1. 2. 3.
2 2. 4. 5.
3 3. 6. 7.
答案 1 :(得分:2)
目前,最简单的答案是:
library(dplyr)
library(tidyr)
data %>% unnest_wider(ListCol)
答案 2 :(得分:1)
有两个很棒的班轮建议
cbind(df[1],t(data.frame(df$b)))
这来自@Onyambu
,使用base
R 。要获得此答案,需要知道dataframe
是一个列表,需要一些创造力。
df %>% unnest_wider(b)
这是使用@iago
来自tidyverse
的。您需要额外的程序包并知道所有nest
动词,但有人可以认为它更易读。
library(dplyr)
library(tidyr)
library(purrr)
library(microbenchmark)
N <- 100
df <- tibble(a = 1:N, b = map2(1:N, 1:N, c))
tidy_foo <- function() suppressMessages(df %>% unnest_wider(b))
base_foo <- function() cbind(df[1],t(data.frame(df$b))) %>% as_tibble # To be fair
microbenchmark(tidy_foo(), base_foo())
Unit: milliseconds
expr min lq mean median uq max neval
tidy_foo() 102.4388 108.27655 111.99571 109.39410 113.1377 194.2122 100
base_foo() 4.5048 4.71365 5.41841 4.92275 5.2519 13.1042 100
base
R 解决方案的速度提高了20倍。
答案 3 :(得分:0)
这是data.table
和base::unlist
的选项。
library(data.table)
DT <- data.table(a = list(1, 2, 3),
b = list(list(1, 2),
list(2, 1),
list(1, 1)))
for (i in 1:nrow(DT)) {
set(
DT,
i = i,
j = c('b1', 'b2'),
value = unlist(DT[i][['b']], recursive = FALSE)
)
}
DT
这需要在每一行都有一个for循环...不理想,非常反 - data.table
。
我想知道是否有某种方法可以避免首先创建列表列...
答案 4 :(得分:0)
@Alec data.table
提供 tstrsplit
功能将一列拆分为多列。
DT = data.table(x=c("A/B", "A", "B"), y=1:3)
DT[]
# x y
#1: A/B 1
#2: A 2
#3: B 3
DT[, c("c1") := tstrsplit(x, "/", fixed=TRUE, keep=1L)][] # keep only first
# x y c1
#1: A/B 1 A
#2: A 2 A
#3: B 3 B
DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][]
# x y c1 c2
#1: A/B 1 A B
#2: A 2 A <NA>
#3: B 3 B <NA>