在R中查找重复的寄存器

时间:2017-08-04 19:28:44

标签: r

我有一个excel文件,其中包含收集它的电子邮件和频道列表。我如何知道使用R复制每个通道的电子邮件数量并自动化(每次导入不同的文件时都必须运行它并获得结果)?

谢谢!!

1 个答案:

答案 0 :(得分:0)

假设“df”数据框的名称为“channel”和“email”的相关变量,那么:

获取唯一的频道 - 电子邮件对的数量:

dim(unique(df[c("channel", "email")]))[1]

获取所有频道电子邮件观察的总和:

sum(table(df$channel, df$email))

要获得重复数量,只需从后面减去前者:

sum(table(df$channel, df$email)) - dim(unique(df[c("channel", "email")]))[1]