比较不同数据帧的更快列

时间:2017-08-31 15:11:18

标签: r

假设有两个数据帧:A和B包含如下数据:

Dataframe: A              Dataframe: B
   ColA                     ColB1      ColB2
| Dog   |                 | Lion     | yes
| Lion  |                 | Cat      | 
| Zebra |                 | Elephant | 
| Bat   |                 | Dog      | yes

想要将ColA的值与ColB1的值进行比较,以便在ColB2列中匹配时插入“是”。我正在运行的是:

for (i in 1:nrow(B)){
    for (j in 1:nrow(A)){
         if (B[i,1] == A[j,1]){
             B[i,2] <- "yes"
         }  
    }   
}

实际上我们正在谈论超过20000行。怎么会变得更快?

1 个答案:

答案 0 :(得分:2)

您可以使用%in%运算符来确定成员资格:

B$ColB2 <- B$ColB1 %in% A$ColA

ColB2将包含TRUE/FALSE,具体取决于数据框ColB1 B中数据框ColA的{​​{1}}中的值是否为A

有关详细信息,请参阅:

https://stat.ethz.ch/R-manual/R-devel/library/base/html/match.html