我正在尝试汇总我的数据,以使我拥有的每个实体都能获得其伴随观察的总金额。
我将提供我的数据的几行,并更改列名和行名以保护隐私: 我的df位于3列(A,B,C)中。 A列包含一个人的唯一ID(例如:001,002,003),B列包含A的每个ID所属的组织(例如:EntityA,EntityB,EntityC)。
C列包含对每个人(ID)的定罪次数,如果在A栏重复输入ID,则表示该人被分别定罪两次,定罪总数以C栏代表。 ,例如,其中某些ID和实体重复;可能有5个与实体A相关的ID,然后有2个与B相关,1个与C相关。有些可能在A列中重复,这意味着它是同一个人,或者可能在B列中重复,但没有在A列中重复,这意味着有两个不同的人,但数据图片中的相同组织等,如下所示:
Screen grab of Data being used
#我希望能够对每个实体(Col B)和ID(Col A)的Col C信念计数,以查看哪个实体的信念最强,以及这是一个ID还是多个ID的结果ID的。通过缩短ID和实体重复的行数,这也将有助于清理数据。预先感谢。
我尝试了求和和计数,但是都没有用。所有列都是字符变量,但可以转换为数字或因子。
答案 0 :(得分:0)
我会尝试
library(dplyr)
df %>%
count(A, B) # counts uniques combos of A and B
这应该为您提供一个名为“ n”的新列,其中包含A和B的唯一实例数。