通过重复观察汇总和计数数据

时间:2019-04-04 14:47:30

标签: r

我正在尝试汇总我的数据,以使我拥有的每个实体都能获得其伴随观察的总金额。

我将提供我的数据的几行,并更改列名和行名以保护隐私:  我的df位于3列(A,B,C)中。 A列包含一个人的唯一ID(例如:001,002,003),B列包含A的每个ID所属的组织(例如:EntityA,EntityB,EntityC)。

C列包含对每个人(ID)的定罪次数,如果在A栏重复输入ID,则表示该人被分别定罪两次,定罪总数以C栏代表。 ,例如,其中某些ID和实体重复;可能有5个与实体A相关的ID,然后有2个与B相关,1个与C相关。有些可能在A列中重复,这意味着它是同一个人,或者可能在B列中重复,但没有在A列中重复,这意味着有两个不同的人,但数据图片中的相同组织等,如下所示:

Screen grab of Data being used

我希望能够对每个实体(Col B)和ID(Col A)的Col C信念计数,以查看哪个实体的信念最强,以及这是一个ID还是多个ID的结果ID的。通过缩短ID和实体重复的行数,这也将有助于清理数据。预先感谢。

我尝试了求和和计数,但是都没有用。所有列都是字符变量,但可以转换为数字或因子。

1 个答案:

答案 0 :(得分:0)

我会尝试

library(dplyr)

df %>% 
  count(A, B) # counts uniques combos of A and B

这应该为您提供一个名为“ n”的新列,其中包含A和B的唯一实例数。