如何使用两个条件(前两列)删除重复组3列?

时间:2018-05-29 11:34:39

标签: python-3.x pandas group-by duplicates

这是我的数据集enter code here

Year created  Week created  SUM_New  SUM_Closed  SUM_Open
0          2018             1       17           0        82
1          2018             6       62          47        18
2          2018             6       62          47        18
3          2018             6       62          47        18
4          2018             6       62          47        18

在最后三列中,已有年和周的总和。我需要删除重复项,以便表包含唯一值(对于上面的示例):

Year created  Week created  SUM_New  SUM_Closed  SUM_Open
0          2018             1       17           0        82
4          2018             6       62          47        18

我尝试对数据进行分组,但它在某种程度上是错误的,并且做了我需要的但只是一列。

df.groupby(['Year created', 'Week created']).size()

输出:

Year created  Week created
2017          48               2
              49              25
              50              54
              51              36
              52               1
2018          1               17
              2               50
              3               37

但它只是一列,我不知道哪一个,因为即使我将三个部分的数据分开并对每个部分执行相同的程序,我也得到相同的结果(如上所述)。 / p>

2 个答案:

答案 0 :(得分:1)

我认为需要drop_duplicates

df = df.drop_duplicates(['Year created', 'Week created'])
print (df)
   Year created  Week created  SUM_New  SUM_Closed  SUM_Open
0          2018             1       17           0        82
1          2018             6       62          47        18

答案 1 :(得分:0)

 String DATE_FORMAT = "dd-MM-yyyy hh:mm:ss a";
 SimpleDateFormat formatter = new SimpleDateFormat(DATE_FORMAT);

 Date currentTime = new Date(); 
 String dateToday = formatter.format(currentTime);
 Date date = formatter.parse(dateToday);

 DateTime dt = new DateTime(date);
 DateTimeZone dtZone = DateTimeZone.forID("America/New_York");  
 DateTime dtus = dt.withZone(dtZone); //last line

希望这会有所帮助。