计算重复行的频率

时间:2016-06-20 12:06:10

标签: r matrix

我有一个包含大量重复项的矩阵,并希望获得一个矩阵,其中包含唯一行和每个唯一行的频率计数。

下面显示的示例解决了这个问题,但速度很慢。

rowsInTbl <- function(tbl,row){
  sum(apply(tbl, 1, function(x) all(x == row) ))
}

colFrequency <- function(tblall){
  tbl <- unique(tblall)
  results <- matrix(nrow = nrow(tbl),ncol=ncol(tbl)+1)
  results[,1:ncol(tbl)] <- as.matrix(tbl)
  dimnames(results) <- list(c(rownames(tbl)),c(colnames(tbl),"Frequency"))

  freq <- apply(tbl,1,function(x)rowsInTbl(tblall,x))
  results[,"Frequency"] <- freq
  return(results)
}


m <- matrix(c(1,2,3,4,3,4,1,2,3,4),ncol=2,byrow=T)
dimnames(m) <- list(letters[1:nrow(m)],c("c1","c2"))
print("Matrix")
print(m)

[1] "Matrix"
  c1 c2
a  1  2
b  3  4
c  3  4
d  1  2
e  3  4

print("Duplicate frequency table")
print(colFrequency(m))


[1] "Duplicate frequency table"
  c1 c2 Frequency
a  1  2         2
b  3  4         3

以下是与我的例子相比,@ Heroka和@ m0h3n答案的速度测量值。将上面显示的基质重复1000次。 Data.table显然是最快的解决方案。

[1] "Duplicate frequency table - my example"
   user  system elapsed 
   0.372   0.000   0.371 

[1] "Duplicate frequency table - data.table"
   user  system elapsed 
   0.008   0.000   0.008 

[1] "Duplicate frequency table - aggregate"
   user  system elapsed 
   0.092   0.000   0.089 

2 个答案:

答案 0 :(得分:5)

看起来像data.table的作业,因为您需要能够快速聚合的内容。

library(data.table)


m <- matrix(c(1,2,3,4,3,4,1,2,3,4),ncol=2,byrow=T)

mdt <- as.data.table(m)

res <- mdt[,.N, by=names(mdt)]
res
# > res
# V1 V2 N
# 1:  1  2 2
# 2:  3  4 3

答案 1 :(得分:2)

如何使用base R提取唯一行:

mat <- matrix(c(2,5,3,5,2,3,4,2,3,5,4,2,1,5,3,5), ncol = 2, byrow = T)
mat[!duplicated(mat),]

     # [,1] [,2]
# [1,]    2    5
# [2,]    3    5
# [3,]    2    3
# [4,]    4    2
# [5,]    1    5

提取唯一的行及其频率:

m <- as.data.frame(mat)
aggregate(m, by=m, length)[1:(ncol(m)+1)]

  # V1 V2 V1.1
# 1  4  2    2
# 2  2  3    1
# 3  1  5    1
# 4  2  5    1
# 5  3  5    3