Question

我有一个看似简单的计算，其中有一个由4列组成的数据框，如下所示（日期，原点，目的地，计数）。我想按日期加上ID1和ID2的唯一对来对计数求和，这意味着A-B和B-A是一对。

Date ID1 ID2 Count
12-1   A   B   1
12-1   B   A   1
12-1   D   E   1
12-1   E   D   2
12-1   Y   Z   2
12-2   A   B   1
12-2   B   A   1
12-2   D   E   1
12-2   E   D   2
12-2   Y   Z   2

从日期设置开始，我们可以按唯一组合（例如A-B，B-A，D-E，E-D等）对“计数”列进行求和。但是，我想用唯一对来对count列求和，这意味着A-B也将包括B-A。

理想情况下，我希望按日期和唯一对来汇总表格。

我仔细检查了所有的dyplyr函数，例如变异，聚集，联合-全部无济于事。

对于任何见解或指出正确的方向将深表感谢。非常感谢

Answer 1

我们可以使用pmin，pmax进行按行排序，将其与“日期”一起用作分组变量，并获得“计数”的sum

library(dplyr)
df1 %>% 
  group_by(Date, ID1n = pmin(ID1, ID2), ID2n = pmax(ID1, ID2)) %>% 
  summarise(Count = sum(Count)) %>%
  #dplyr::select(ID1 = ID1n, ID2 = ID2n, Date, Count)
  rename(ID1 = ID1n, ID2 = ID2n)
# A tibble: 6 x 4
# Groups:   ID1, Date [6]
#  ID1   ID2   Date  Count
#  <chr> <chr> <chr> <int>
#1 A     B     12-1      2
#2 D     E     12-1      3
#3 Y     Z     12-1      2
#4 A     B     12-2      2
#5 D     E     12-2      3
#6 Y     Z     12-2      2

或者如果select中的rename或dplyr是越野车，则在summarise步骤停止并仅分配列名

out <-  df1 %>% 
  group_by(Date, ID1n = pmin(ID1, ID2), ID2n = pmax(ID1, ID2)) %>% 
  summarise(Count = sum(Count)) 
names(out)[1:2] <- c("ID1", "ID2")

或者将base R，sort按行用于“ ID1”，“ ID2”列，并通过其他变量获得sum的“计数”

df1[c('ID1', 'ID2')] <- t(apply(df1[c('ID1', 'ID2')], 1, sort))
aggregate(Count ~ ., df1, sum)
#  Date ID1 ID2 Count
#1 12-1   A   B     2
#2 12-2   A   B     2
#3 12-1   D   E     3
#4 12-2   D   E     3
#5 12-1   Y   Z     2
#6 12-2   Y   Z     2

数据

df1 <- structure(list(Date = c("12-1", "12-1", "12-1", "12-1", "12-1", 
"12-2", "12-2", "12-2", "12-2", "12-2"), ID1 = c("A", "B", "D", 
"E", "Y", "A", "B", "D", "E", "Y"), ID2 = c("B", "A", "E", "D", 
"Z", "B", "A", "E", "D", "Z"), Count = c(1L, 1L, 1L, 2L, 2L, 
1L, 1L, 1L, 2L, 2L)), class = "data.frame", row.names = c(NA, 
-10L))

唯一列PAIRS（B-A和A-B）的R和观测值，而不是唯一组合（B-A或A-B）的观测值

1 个答案:

数据