我有一个带有90k行的data.frame,名为" sourceToDestination"。
上面data.frame中的许多行都是重复的。使用unique命令创建了另一个data.frame,它只列出了上面data.frame中的唯一行,并命名为" sourceToDestinationUnique"。
现在在这个显示唯一值的data.frame中,我想在最后添加另一列列出count。 count列指定了每个这些唯一行在原始data.frame中出现的次数。
我尝试使用以下命令检查原始data.frame中唯一data.frame中第1行的次数:
set $domain $host;
if ($domain ~ "^(.[^.]*)\.dev$") {
set $domain $1;
set $servername "${domain}.dev";
}
if ($domain ~ "^(.*)\.(.[^.]*)\.dev$") {
set $subdomain $1;
set $domain $2;
set $servername "${subdomain}.${domain}.dev";
}
但它给了我这个奇怪的答案:
> sourceToDestinationUnique[1,] %in% sourceToDestination
请告诉我使用哪个命令?感谢。
答案 0 :(得分:1)
我建议另一种方法可以归档你的目的:
sourceToDestinationUnique <- aggregate(list(dupCount=rep(1,nrow(sourceToDestination))), sourceToDestination, length)
让我们打印出df sourceToDestinationUnique以查看结果。