给出以下data.frame:
t x y
---------
1 1 3
1 1 3
1 1 2
2 1 2
2 2 2
我想输出表格
t cnt cux cuy
---------------
1 3 1 2
2 2 2 1
其中cnt是具有特定值t的所有行的计数,cux / cuy是x / y所有唯一行的计数
另一个限制是答案必须适用于可变数量的列。
感谢。
答案 0 :(得分:2)
您在文字中描述的内容以及您在预期输出中显示的内容不同意。特别是,根据您的输入,计算y
的唯一值将是2和1,而不是3和2。附上书面说明:
DF <- data.frame(t=c(1,1,1,2,2), x=c(1,1,1,1,2), y=c(3,3,2,2,2))
library("plyr")
ddply(DF, .(t), function(DF) {
data.frame(cnt=length(DF$t), colwise(function(x) {length(unique(x))})(DF))
})
或者如果你想要一些看起来很实用的东西:
library("functional")
ddply(DF, .(t), function(DF) {
data.frame(cnt=length(DF$t), colwise(Compose(unique, length))(DF))
})
或完全超越功能范例:
merge(ddply(DF, .(t), summarise, cnt=length(t)),
ddply(DF, .(t), colwise(Compose(unique, length))))
这些都没有给出您要求的列名;而不是cux
它是x
。但是,之后可以改变它们。
res <-
merge(ddply(DF, .(t), summarise, cnt=length(t)),
ddply(DF, .(t), colwise(Compose(unique, length))))
names(res)[-(1:2)] <- paste("cu", names(DF)[-1], sep="")
给出了
> res
t cnt cux cuy
1 1 3 1 2
2 2 2 2 1