Question

我有一个长格式数据框，有相同日期和人的多个条目。

jj <- data.frame(month=rep(1:3,4),
             student=rep(c("Amy", "Bob"), each=6),
             A=c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5),
             B=c(6, 7, 8, 5, 6, 7, 5, 4, 6, 3, 1, 5))

我想将其转换为宽格式并使其像这样：

month Amy.A Bob.A Amy.B Bob.B
1     
2     
3
1
2
3
1
2
3
1
2
3

我的问题与this非常相似。我在答案中使用了给定的代码：

kk <- jj %>% 
  gather(variable, value, -(month:student)) %>% 
  unite(temp, student, variable) %>% 
  spread(temp, value)

但它会出现以下错误：

错误：行（1,4），（2,5），（3,6），（13,16），（14,17），（15,18），（7,10）的重复标识符，（8,11），（9,12），（19,22），（20,23），（21,24）

提前致谢。注意：我不想删除多个条目。

Answer 1

你的回答是缺少mutate id！以下是仅使用dplyr packge的解决方案。

jj %>% 
  gather(variable, value, -(month:student)) %>% 
  unite(temp, student, variable) %>% 
  group_by(temp) %>% 
  mutate(id=1:n()) %>% 
  spread(temp, value) 
#  A tibble: 6 x 6
#  month    id Amy_A Amy_B Bob_A Bob_B
# * <int> <int> <dbl> <dbl> <dbl> <dbl>
# 1     1     1     9     6     3     5
# 2     1     4     8     5     5     3
# 3     2     2     7     7     2     4
# 4     2     5     6     6     6     1
# 5     3     3     6     8     1     6
# 6     3     6     9     7     5     5

Answer 2

问题是A和B的两列。如果我们可以创建一个值列，我们可以按您的意愿传播数据。使用下面的代码时，请查看jj_melt的输出。

library(reshape2)
jj_melt <- melt(jj, id=c("month", "student"))
jj_spread <- dcast(jj_melt, month ~ student + variable, value.var="value", fun=sum)
#   month Amy_A Amy_B Bob_A Bob_B
# 1     1    17    11     8     8
# 2     2    13    13     8     5
# 3     3    15    15     6    11

我不会将此标记为重复，因为sum未对其他问题进行总结，但data.table答案可能有助于另外一个参数fun=sum：< / p>

library(data.table)
dcast(setDT(jj), month ~ student, value.var=c("A", "B"), fun=sum)
#    month A_sum_Amy A_sum_Bob B_sum_Amy B_sum_Bob
# 1:     1        17         8        11         8
# 2:     2        13         8        13         5
# 3:     3        15         6        15        11

如果您想使用tidyr解决方案，请将其与dcast结合使用，按sum进行汇总。

as.data.frame(jj)
library(tidyr)
jj %>% 
  gather(variable, value, -(month:student)) %>%
  unite(temp, student, variable) %>%
  dcast(month ~ temp, fun=sum)
#   month Amy_A Amy_B Bob_A Bob_B
# 1     1    17    11     8     8
# 2     2    13    13     8     5
# 3     3    15    15     6    11

修改

根据您的新要求，我添加了一个活动列。

library(dplyr) jj %>% group_by(month, student) %>% mutate(id=1:n()) %>% melt(id=c("month", "id", "student")) %>% dcast(... ~ student + variable, value.var="value") # month id Amy_A Amy_B Bob_A Bob_B # 1 1 1 9 6 3 5 # 2 1 2 8 5 5 3 # 3 2 1 7 7 2 4 # 4 2 2 6 6 6 1 # 5 3 1 6 8 1 6 # 6 3 2 9 7 5 5

也可以使用其他解决方案。这里我添加了一个可选表达式来按活动编号排列最终输出：

library(tidyr) jj %>% gather(variable, value, -(month:student)) %>% unite(temp, student, variable) %>% group_by(temp) %>% mutate(id=1:n()) %>% dcast(... ~ temp) %>% arrange(id) # month id Amy_A Amy_B Bob_A Bob_B # 1 1 1 9 6 3 5 # 2 2 2 7 7 2 4 # 3 3 3 6 8 1 6 # 4 1 4 8 5 5 3 # 5 2 5 6 6 6 1 # 6 3 6 9 7 5 5

data.table语法是紧凑的，因为它允许多个value.var列，并将为我们处理传播。然后我们可以跳过melt -> cast进程。

library(data.table) setDT(jj)[, activityID := rowid(student)] dcast(jj, ... ~ student, value.var=c("A", "B")) # month activityID A_Amy A_Bob B_Amy B_Bob # 1: 1 1 9 3 6 5 # 2: 1 4 8 5 5 3 # 3: 2 2 7 2 7 4 # 4: 2 5 6 6 6 1 # 5: 3 3 6 1 8 6 # 6: 3 6 9 5 7 5

Answer 3

由于 tidyr 1.0.0 pivot_wider是spread的推荐替代品，因此您可以执行以下操作：

jj <- data.frame(month=rep(1:3,4),
                 student=rep(c("Amy", "Bob"), each=6),
                 A=c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5),
                 B=c(6, 7, 8, 5, 6, 7, 5, 4, 6, 3, 1, 5))

library(tidyr)

pivot_wider(
  jj,
  names_from = "student",
  values_from = c("A","B"),
  names_sep = ".",
  values_fn = list(A= list, B= list)) %>%
  unchop(everything())
#> # A tibble: 6 x 5
#>   month A.Amy A.Bob B.Amy B.Bob
#>   <int> <dbl> <dbl> <dbl> <dbl>
#> 1     1     9     3     6     5
#> 2     1     8     5     5     3
#> 3     2     7     2     7     4
#> 4     2     6     6     6     1
#> 5     3     6     1     8     6
#> 6     3     9     5     7     5

^{由reprex package（v0.3.0）于2019-09-14创建}

这个问题的转折点在于学生不是每个月都可以解决这个问题：

values_fn = list(A= list, B= list))将多个值放在列表中
unchop(everything())垂直嵌套列表，您也可以在此处使用unnest

Answer 4

如果我们创建唯一的序列，则可以使用pivot_wider

以正确的格式输出

library(dplyr)
library(tidyr)
jj %>%
   group_by(month, student) %>% 
   mutate(rn = row_number()) %>%
   pivot_wider(names_from = 'student', values_from = c('A', 'B'), 
          names_sep='.')  %>% 
   select(-rn)
# A tibble: 6 x 5
# Groups:   month [3]
#  month A.Amy A.Bob B.Amy B.Bob
#  <int> <dbl> <dbl> <dbl> <dbl>
#1     1     9     3     6     5
#2     2     7     2     7     4
#3     3     6     1     8     6
#4     1     8     5     5     3
#5     2     6     6     6     1
#6     3     9     5     7     5

数据

jj <- structure(list(month = c(1L, 2L, 3L, 1L, 2L, 3L, 1L, 2L, 3L, 
1L, 2L, 3L), student = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 
2L, 2L, 2L, 2L, 2L), .Label = c("Amy", "Bob"), class = "factor"), 
    A = c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5), B = c(6, 7, 8, 
    5, 6, 7, 5, 4, 6, 3, 1, 5)), class = "data.frame", row.names = c(NA, 
-12L))

Answer 5

gather(data, key = "key", value = "value", ..., na.rm = FALSE,
  convert = FALSE, factor_key = FALSE)

检查您是否反转了键和值。 “Key”是新密钥的名称，“value”是实际值。

使用包含行的重复标识符的spread

5 个答案:

数据