删除R中多个列的重复项

时间:2014-11-13 20:23:31

标签: r

我有一个 CSV 文件,其中包含多个列,每个列都包含电子邮件地址。我想删除整个文件中的任何重复项。

  • 任何人都可以使用R?
  • 得到答案

3 个答案:

答案 0 :(得分:0)

df <- data.frame(email1 = c('foo@foo.com', 'foo@bar.com'),
                     email2 = c('foo@foo.com', 'foo@baz.com'),
                     stringsAsFactors = FALSE)

all_unique_emails <- unique(c(df$email1, df$email2))

答案 1 :(得分:0)

排序取决于您最终想要的内容,您是否希望使用NAs完全相同的csv文件代替重复的电子邮件?或者你只是想要一个独特的电子邮件列表/矢量?

看看函数unique()和duplicated(),他们应该能够至少判断电子邮件是否已经存在。

答案 2 :(得分:0)

一种选择是将您的数据帧转换为向量并提取所有唯一值:

email_address_vector <- unique( as.vector(t(df)) )