Question

screenshot from R

我将这组学校开始和结束日期从excel导入到R中，我无法删除重复项。它不像其他一些关于这个主题的帖子那样直截了当。

基本上，如果左栏中的学区对于每个条目具有相同的开始日期和结束日期，我只需要显示一个条目。例如，“Dewitt School District”的第一个条目有5个条目，所有条目的开始日期为08/19/2009，结束日期为6/1/2010，所以我需要它只显示1个条目。

不确定这是否可以在R中完成，但我的主管说它可以在STATA中完成。

Answer 1

采取@Mellissa Key的答案。

创建包含3个重复事件的数据集

df <- data.frame(school = rep(c("dewitt", "stuttgart", "crossett"), 3),
                 firstday = rep(c("8/19/2009", "8/12/2009", "8/16/2009"),3), 
                 lastday = rep(c("8/19/2010", "8/12/2010", "8/16/2010"),3))

df

     school  firstday   lastday
1    dewitt 8/19/2009 8/19/2010
2 stuttgart 8/12/2009 8/12/2010
3  crossett 8/16/2009 8/16/2010
4    dewitt 8/19/2009 8/19/2010
5 stuttgart 8/12/2009 8/12/2010
6  crossett 8/16/2009 8/16/2010
7    dewitt 8/19/2009 8/19/2010
8 stuttgart 8/12/2009 8/12/2010
9  crossett 8/16/2009 8/16/2010

并在data.frame上运行dplyr::distinct()函数：

library(dplyr)
distinct(df)

     school  firstday   lastday
1    dewitt 8/19/2009 8/19/2010
2 stuttgart 8/12/2009 8/12/2010
3  crossett 8/16/2009 8/16/2010

只返回三个唯一的行，因为＆＃34; STATA可以做的每件事，R可以做得更好＆＃34; :-)

删除R中的重复项具体细节

1 个答案: