Question

我有一个带有90k行的data.frame，名为＆＃34; sourceToDestination＆＃34;。

上面data.frame中的许多行都是重复的。使用unique命令创建了另一个data.frame，它只列出了上面data.frame中的唯一行，并命名为＆＃34; sourceToDestinationUnique＆＃34;。

现在在这个显示唯一值的data.frame中，我想在最后添加另一列列出count。 count列指定了每个这些唯一行在原始data.frame中出现的次数。

我尝试使用以下命令检查原始data.frame中唯一data.frame中第1行的次数：

set $domain $host;

if ($domain ~ "^(.[^.]*)\.dev$") {
    set $domain $1;
    set $servername "${domain}.dev";
}

if ($domain ~ "^(.*)\.(.[^.]*)\.dev$") {
    set $subdomain $1;
    set $domain $2;
    set $servername "${subdomain}.${domain}.dev";
}

但它给了我这个奇怪的答案：

> sourceToDestinationUnique[1,] %in% sourceToDestination

请告诉我使用哪个命令？感谢。

Answer 1

我建议另一种方法可以归档你的目的：

 sourceToDestinationUnique <- aggregate(list(dupCount=rep(1,nrow(sourceToDestination))), sourceToDestination, length)

让我们打印出df sourceToDestinationUnique以查看结果。

查找一个数据帧中某行出现在R中另一个数据帧中的时间

1 个答案: