是否有"一体化" R中的便利功能可以折叠/聚合数据帧以解决多对多问题?其动机是减少多对多关系,以便可以在一些主键(具有唯一标识符值的列)上连接两个或多个表。为了阐明,请考虑以下数据框:
set.seed(1) # for reproducibility
df <- data.frame(id = sort(rep(seq(1,3),4)), # primary key
geo_loc = state.abb[sample(seq(1,length(state.name)), # state abbreviations
size=length(sort(rep(seq(1,3),4))),
replace = TRUE)],
revenue = c(sample(seq(0,50),size=3), sample(c(seq(101,200)),size=3),
sample(seq(201,300),size=4), sample(seq(301,1000),size=2)),
prod_id = sample(LETTERS[c(seq(1,4))],size=12, replace=TRUE),
quant = c(sample(seq(0,5),size=4), sample(c(seq(3,8)),size=4),
sample(seq(6,11),size=2), sample(seq(9,14),size=2))) ; df
id geo_loc revenue prod_id quant
1 1 MN 47 D 0
2 1 MA 29 B 3
3 1 SD 50 B 4
4 1 NM 174 A 1
5 2 NC 136 D 6
6 2 LA 143 B 5
7 2 IN 215 C 8
8 2 WY 202 A 4
9 3 NY 271 A 10
10 3 HI 211 C 9
11 3 CT 613 C 10
12 3 MS 748 A 14
是否已存在会折叠此表的函数,以使每个唯一id
只有一行?它必须将geo_loc
和prod_id
列转换为k
级别 - 1个虚拟列。如果这样的函数可以允许基于可能的分位数自动将revenue
聚类成多个块,那也很好。
答案 0 :(得分:0)
只有在拥有适当的分组变量时才会聚合。例如,通过prod_id
聚合更合乎逻辑。
要执行这些数据整理和汇总操作,我个人会推荐来自spread()
软件包的gather()
和tidyr
以及来自{summarise()
的{{1}}和group_by()
1}}包。