跨列匹配值

时间:2016-10-28 19:26:27

标签: r dataframe match

假设我有数据框,我想查看给定列中的每个给定值是否等于第二列的下一行中的值?

我可以为1场比赛做到这一点,但我正在尝试为整个数据框做到这一点:

 match(dataset$co1[i], dataset$co1[i+1]) # where i is a given row #

测试数据集:

case <- c("A", "B", "C", "A", "A", "A" ,"B", "C", "B", "A")
col1 <- c(1, 100, 50, 600, 29, 72, 7, 64, 15, 85)
col2 <- c(600, 7, 64, 29, 57, 85, 12, 82, 71, 34)
dataset <- data.frame(case, col1, col2)

我也想这样做。我试图看看是否可以将匹配行放在一个by语句中,但是我很难弄清楚如何在列中进行索引。

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

正如@Frank指出的那样,根据您的匹配条件和您提供的数据集,不会有任何匹配。因此,出于演示目的,我修改了您的数据集以显示我的解决方案确实有效。这是使用dplyr的简单方法:

# Modified dataset
case <- c("A", "B", "C", "A", "A", "A" ,"B", "C", "B", "A")
col1 <- c(1, 100, 50, 600, 29, 72, 7, 64, 15, 85)
col2 <- c(600, 7, 64, 1, 600, 85, 100, 82, 71, 34)
dataset <- data.frame(case, col1, col2)
> dataset
   case col1 col2
1     A    1  600
2     B  100    7
3     C   50   64
4     A  600    1
5     A   29  600
6     A   72   85
7     B    7  100
8     C   64   82
9     B   15   71
10    A   85   34

请注意,我将col2的第4行更改为1,将第5行更改为600,将第7行更改为100.这样,col2的第4行将与col1的第1行匹配,col2的第5行与col1的第4行匹配,并且当按案例匹配时,col2的第7个与col1的第2个匹配。此外,当按案例匹配时,只有第5行col2与col1的第4行匹配。

library(dplyr)
dataset %>% 
  add_rownames() %>%
  mutate(col2 = lead(col2)) %>%
  filter(col1 == col2)

# A tibble: 1 × 4
  rowname   case  col1  col2
    <chr> <fctr> <dbl> <dbl>
1       4      A   600   600

此代码返回与col2的下一行匹配的col1行。我添加了add_rownames(),以便您了解dataset中的原始行索引。 lead()中的mutate()函数与lag()中的dplyr完全相反(基数R中的通用lag()不允许滞后的非时间序列向量)。它由k = -1“滞后”col2。

dataset %>% 
  add_rownames() %>%
  group_by(case) %>%
  mutate(col2 = lead(col2)) %>%
  filter(col1 == col2)

Source: local data frame [3 x 4]
Groups: case [2]

  rowname   case  col1  col2
    <chr> <fctr> <dbl> <dbl>
1       1      A     1     1
2       2      B   100   100
3       4      A   600   600

通过添加group_by(),你可以做同样的事情,但是通过“案例”。如您所见,它按预期返回匹配的行。

如果由于某种原因您不想使用dplyr,这是一个更通用的解决方案:

## No group by case
# Lag col2 (Call the lagged column col3)
dataset$col3 = c(dataset$col2[-1], NA)

dataset$match = mapply(function(x, y) match(x, y, nomatch = FALSE), 
                       dataset$col1, dataset$col3)

> dataset[dataset$match == 1,]
  case col1 col2 col3 match
4    A  600    1  600     1

## Group by case
# Split dataset into groups
dataList = split(dataset, case)

dataMatched = lapply(dataList, function(x){
  x$col2 = c(x$col2[-1], NA)
  x$match = mapply(function(x, y) match(x, y, nomatch = FALSE), 
            x$col1, x$col2)
  return(x)
})

结果列表/数据框:

> dataMatched
$A
   case col1 col2 match
1     A    1    1     1
4     A  600  600     1
5     A   29   85     0
6     A   72   34     0
10    A   85   NA     0

$B
  case col1 col2 match
2    B  100  100     1
7    B    7   71     0
9    B   15   NA     0

$C
  case col1 col2 match
3    C   50   82     0
8    C   64   NA     0

> unsplit(dataMatched, case)
   case col1 col2 match
1     A    1    1     1
2     B  100  100     1
3     C   50   82     0
4     A  600  600     1
5     A   29   85     0
6     A   72   34     0
7     B    7   71     0
8     C   64   NA     0
9     B   15   NA     0
10    A   85   NA     0