我有两个数据帧(a1和a2)。
第一个(a1)是原始数据集,第二个(a2)相同,仅包含已附加到某些记录的数据。我想获得包含附加数据的记录数的计数。我不需要查看记录。
仅计算a2中不同记录数的最佳方法是什么?
答案 0 :(得分:1)
好的,所以首先让我弄清楚这一点。您基本上想比较两个数据框并找到不同列的数量。
使用dplyr
> a1
a b
1 1 a
2 2 b
3 3 c
4 4 d
5 5 e
> a2
a b
1 1 a
2 2 b
3 3 c
> df <- setdiff(a1,a2)
a b
1 4 d
2 5 e
> nrow(df)
2
这是您要寻找的吗?
答案 1 :(得分:1)
使用来自dplyr的anti_join:anti_join a2和a1将导致记录在a2中,但不在a1中。并计算出行数。
a2 %>%
anti_join(a1) %>%
tally()