R - 按组计算不匹配

时间:2015-07-07 23:29:41

标签: r sequence dplyr hamming-distance

我想知道如何根据群组计算不匹配个案

让我们想象这是我的数据:

sek = rbind(c(1, 'a', 'a', 'a'), 
        c(1, 'a', 'a', 'a'), 
        c(2, 'b', 'b', 'b'), 
        c(2, 'c', 'b', 'b'))

colnames(sek) <- c('Group', paste('t', 1:3, sep = ''))

数据看起来像这样

     Group t1  t2  t3 
[1,] "1"   "a" "a" "a"
[2,] "1"   "a" "a" "a"
[3,] "2"   "b" "b" "b"
[4,] "2"   "c" "b" "b"

为了得到像

这样的东西
Group 1 : 0 
Group 2 : 1 

使用stringdist库来计算它是很奇怪的。

这样的东西
seqdistgroupStr = function(x) stringdistmatrix(x, method = 'hamming')

sek %>% 
  as.data.frame() %>% 
  group_by(Group) %>% 
  seqdistgroupStr() 

但它不起作用。

有什么想法吗?

快速更新: 你如何解决权重问题?例如,在两个字符之间设置 mistmatch 时,如何传递参数 - 值(1,2,3,...)。与 b和c 成本 2 之间的不匹配类似,而 a和c 之间的不匹配 >费用 1 等等。

5 个答案:

答案 0 :(得分:6)

这是另一个dplyr解决方案,不需要将数据转换为长/宽格式:

library(dplyr)
sek = rbind(c(1, 'a', 'a', 'a'), 
            c(1, 'a', 'a', 'a'), 
            c(2, 'b', 'b', 'b'), 
            c(2, 'c', 'b', 'b')) %>%
    data.frame

colnames(sek) <- c('Group', paste('t', 1:3, sep = ''))

sek %>% 
    group_by(Group) %>%
    distinct(t1, t2, t3) %>%
    summarise(number_of_mismatches = n() - 1)

答案 1 :(得分:3)

下面的代码将按组给出不匹配的数量,其中不匹配定义为每个级别的每个级别t1,t2等中的唯一值的数量少一个。我认为只有当你需要的不仅仅是二进制不匹配度量时,你才需要引入一个字符串距离度量,但二进制度量就足以满足你给出的例子。此外,如果你想要的只是每组中不同行的数量,那么@ Alex的解决方案更简洁。

library(dplyr)
library(reshape2)

sek %>% as.data.frame %>%
  melt(id.var="Group") %>%
  group_by(Group, variable) %>%
  summarise(mismatch = length(unique(value)) - 1) %>%
  group_by(Group) %>%
  summarise(mismatch = sum(mismatch))

  Group mismatch
1     1        0
2     2        1

这是一种较短的dplyr方法来计算个别不匹配。它不需要重塑,但它需要其他数据体操:

sek %>% as.data.frame %>%
  group_by(Group) %>%
  summarise_each(funs(length(unique(.)) - 1)) %>%
  mutate(mismatch = rowSums(.[-1])) %>%
  select(-matches("^t[1-3]$"))

答案 2 :(得分:3)

另一个想法:

library(dplyr)
library(tidyr)

data.frame(sek) %>%
  gather(key, value, -Group) %>%
  group_by(Group) %>%
  summarise(dist = n_distinct(value)-1)

给出了:

#Source: local data frame [2 x 2]
#
#  Group dist
#1     1    0
#2     2    1

答案 3 :(得分:2)

m <- matrix(apply(sek[,-1], 1, paste, collapse=''))
newdf <- as.data.frame(cbind(sek[,1], m))
names(newdf) <- c('Group', 'value')
newdf %>% group_by(Group) %>% summarize(count = length(unique(value))-1)
#  Group count
#1     1     0
#2     2     1

答案 4 :(得分:2)

基础套餐:

aggregate(cbind(dist = Groups) ~ Groups, 
          data = unique(sek), 
          FUN = function(x){NROW(x)-1})

使用sqldf

library(sqldf)
df <- rbind(c(1, "a", "a", "a"), 
            c(1, "a", "a", "a"), 
            c(2, "b", "b", "b"), 
            c(2, "c", "b", "b"))
df <- as.data.frame(df)
colnames(df)[1] <- "Groups"
sqldf("SELECT Groups, COUNT(Groups)-1 AS Dist 
      FROM (SELECT DISTINCT * FROM df) 
      GROUP BY Groups")

输出:

  Groups Dist
1      1    0
2      2    1