我目前有一个名为“DT”的数据集,如下所示:
Name
A11
B16
B16
B16
B16
B98
B98
M88
K99
K99
K99
这是真实数据集的一个子集,大约有500万行。我想要做的是找到每个名称的平均出现次数。也就是说,如果我可以创建一个看起来像这样的新数据集:
Count
1
4
2
1
3
然后将列总和除以长度将是非常简单的。我目前正在使用data.table包,我正在尝试使用.N功能,但一直无法接近。我所做的最好的是:
DT[,`:=` .N, by = Name]
我觉得我只是想念一些东西,有人能引导我走向正确的方向吗?谢谢!
答案 0 :(得分:1)
你可以做到
DT[,.N,by=Name]
#> DT
# Name N
# 1: A11 1
# 2: B16 4
# 3: B98 2
# 4: M88 1
# 5: K99 3