删除R中的重复项具体细节

时间:2018-04-17 03:38:18

标签: r duplicates

screenshot from R

我将这组学校开始和结束日期从excel导入到R中,我无法删除重复项。 它不像其他一些关于这个主题的帖子那样直截了当。

基本上,如果左栏中的学区对于每个条目具有相同的开始日期结束日期,我只需要显示一个条目。例如,“Dewitt School District”的第一个条目有5个条目,所有条目的开始日期为08/19/2009,结束日期为6/1/2010,所以我需要它只显示1个条目。

不确定这是否可以在R中完成,但我的主管说它可以在STATA中完成。

1 个答案:

答案 0 :(得分:0)

采取@Mellissa Key的答案。

创建包含3个重复事件的数据集

df <- data.frame(school = rep(c("dewitt", "stuttgart", "crossett"), 3),
                 firstday = rep(c("8/19/2009", "8/12/2009", "8/16/2009"),3), 
                 lastday = rep(c("8/19/2010", "8/12/2010", "8/16/2010"),3))

df
     school  firstday   lastday
1    dewitt 8/19/2009 8/19/2010
2 stuttgart 8/12/2009 8/12/2010
3  crossett 8/16/2009 8/16/2010
4    dewitt 8/19/2009 8/19/2010
5 stuttgart 8/12/2009 8/12/2010
6  crossett 8/16/2009 8/16/2010
7    dewitt 8/19/2009 8/19/2010
8 stuttgart 8/12/2009 8/12/2010
9  crossett 8/16/2009 8/16/2010

并在data.frame上运行dplyr::distinct()函数:

library(dplyr)
distinct(df)
     school  firstday   lastday
1    dewitt 8/19/2009 8/19/2010
2 stuttgart 8/12/2009 8/12/2010
3  crossett 8/16/2009 8/16/2010

只返回三个唯一的行,因为&#34; STATA可以做的每件事,R可以做得更好&#34; :-)