我有一个包含许多与此类似的变量的大数据集:
> data.table(a=letters[1:10],b=LETTERS[1:10],ID=c(1,1,1,2,2,2,2,3,3,3))
a b ID
1: a A 1
2: b B 1
3: c C 1
4: d D 2
5: e E 2
6: f F 2
7: g G 2
8: h H 3
9: i I 3
10: j J 3
我想连接(在它们之间使用换行符)所有列值,除了每个ID值的ID,因此结果应如下所示:
a b ID
1: a A 1
b B
c C
2: d D 2
e E
f F
g G
3: h H 3
i I
j J
我找到了一个链接R Dataframe: aggregating strings within column, across rows, by group,其中讨论了如何为一个列执行此操作,如何为.SD中的所有列扩展此内容?
为清楚起见,我将分隔符从\n
更改为,
,结果应如下所示:
a b ID
1: a,b,c A,B,C 1
2: d,e,f,g D,E,F,G 2
3: h,i,j H,I,J 3
答案 0 :(得分:7)
您可以使用lapply
连接所有列。
dt[, lapply(.SD, paste0, collapse=" "), by = ID]
## ID a b
## 1: 1 a b c A B C
## 2: 2 d e f g D E F G
## 3: 3 h i j H I J
使用换行符作为ollapse参数而不是" "
确实有效,但不会按照您期望的输出中的预期打印。
dt[, lapply(.SD, paste0, collapse="\n"), by = ID]
## ID a b
## 1: 1 a\nb\nc A\nB\nC
## 2: 2 d\ne\nf\ng D\nE\nF\nG
## 3: 3 h\ni\nj H\nI\nJ
正如@Frank的评论中指出的那样,问题已更改为将,
作为分隔符而不是\n
。当然,您只需将collapse
参数更改为","
即可。如果你想要一个空格", "
,那么@DavidArenburg的解决方案更可取。
dt[, lapply(.SD, paste0, collapse=","), by = ID]
dt[, lapply(.SD, toString), by = ID]