我有一个数据框:
# A data Sample
df <- read.table(textConnection("id\ttype
A\t1
A\t2
A\t4
B\t1
B\t2
B\t3
B\t5
C\t1
C\t3
C\t4
C\t5"), header = TRUE)
# print the data sample
df
看起来像这样:
id type
1 A 1
2 A 2
3 A 4
4 B 1
5 B 2
6 B 3
7 B 5
8 C 1
9 C 3
10 C 4
11 C 5
您知道我如何拥有一个包含所有具有共同“类型”的“ id”值的所有可能组合的数据框吗?像这样的东西:
id-Combination type- common
1 A,B 1,2
2 A,C 1,4
3 B,C 1,3,5
4 A,B,C 1
例如,它显示'id'A和B具有共同的'type'1和2。
我猜想,“聚合”功能可以提供帮助,但是我不知道如何才能准确地使用它来在R中获得此输出。
答案 0 :(得分:2)
您可以使用dcast
,combn
和很少的处理来获得像这样的最终列表
library(data.table)
library(reshape2)
df <- read.table(textConnection("id\ttype
A\t1
A\t2
A\t4
B\t1
B\t2
B\t3
B\t5
C\t1
C\t3
C\t4
C\t5"), header = TRUE, stringsAsFactors = F)
# print the data sample
df
### dcast the table
df.cast <- dcast(df, id~type, value.var = "type", fun = length)
df.cast
id 1 2 3 4 5
1 A 1 1 0 1 0
2 B 1 1 1 0 1
3 C 1 0 1 1 1
### Final dataframe
final.df <- data.table(NULL)
### Run the loop for each column, to check matching rows
for(i in 1:5){
### get matching rows values
values <- df.cast[1 == df.cast[,grep(i, colnames(df.cast))], "id" ]
### Create Combination of these values (group of 2 or more)
for(v in 2:length(values)){
combn.mat <- combn(values, v)
dx <- data.frame(t(combn.mat))
combination <- apply(dx, 1, paste, collapse=",")
temp <- data.frame(combination = combination)
temp$Common <- i
final.df <- rbind(final.df, temp)
}
}
### Combine the same groups using toString
final.df <- final.df[, .(Common = toString(Common)), by = .(combination)]
final.df
combination Common
1: A,B 1, 2
2: A,C 1, 4
3: B,C 1, 3, 5
4: A,B,C 1