R:根据同一列中的条件识别列中的重复项

时间:2016-10-31 12:42:58

标签: r duplicates

我需要识别特定列中数据框中的重复项。 但是,我不想消除所有重复的值,而只是那些显示" http"作为该列中字符串的初始部分。

通常我会用以下代码行识别重复项:

Dup <-data[(duplicated(data[c("var1")])),]

提前致谢。

1 个答案:

答案 0 :(得分:1)

我们需要grep的另一个条件,以确保只从那些以“http”开头且重复的字符串将从数据集中删除。

data[!(grepl("^http", data$var1) & duplicated(data$var1)),]