我将这组学校开始和结束日期从excel导入到R中,我无法删除重复项。 它不像其他一些关于这个主题的帖子那样直截了当。
基本上,如果左栏中的学区对于每个条目具有相同的开始日期和结束日期,我只需要显示一个条目。例如,“Dewitt School District”的第一个条目有5个条目,所有条目的开始日期为08/19/2009,结束日期为6/1/2010,所以我需要它只显示1个条目。
不确定这是否可以在R中完成,但我的主管说它可以在STATA中完成。
答案 0 :(得分:0)
采取@Mellissa Key的答案。
创建包含3个重复事件的数据集
df <- data.frame(school = rep(c("dewitt", "stuttgart", "crossett"), 3),
firstday = rep(c("8/19/2009", "8/12/2009", "8/16/2009"),3),
lastday = rep(c("8/19/2010", "8/12/2010", "8/16/2010"),3))
df
school firstday lastday 1 dewitt 8/19/2009 8/19/2010 2 stuttgart 8/12/2009 8/12/2010 3 crossett 8/16/2009 8/16/2010 4 dewitt 8/19/2009 8/19/2010 5 stuttgart 8/12/2009 8/12/2010 6 crossett 8/16/2009 8/16/2010 7 dewitt 8/19/2009 8/19/2010 8 stuttgart 8/12/2009 8/12/2010 9 crossett 8/16/2009 8/16/2010
并在data.frame上运行dplyr::distinct()
函数:
library(dplyr)
distinct(df)
school firstday lastday 1 dewitt 8/19/2009 8/19/2010 2 stuttgart 8/12/2009 8/12/2010 3 crossett 8/16/2009 8/16/2010
只返回三个唯一的行,因为&#34; STATA可以做的每件事,R可以做得更好&#34; :-)