Question

这是我的数据集enter code here

Year created  Week created  SUM_New  SUM_Closed  SUM_Open
0          2018             1       17           0        82
1          2018             6       62          47        18
2          2018             6       62          47        18
3          2018             6       62          47        18
4          2018             6       62          47        18

在最后三列中，已有年和周的总和。我需要删除重复项，以便表包含唯一值（对于上面的示例）：

Year created  Week created  SUM_New  SUM_Closed  SUM_Open
0          2018             1       17           0        82
4          2018             6       62          47        18

我尝试对数据进行分组，但它在某种程度上是错误的，并且做了我需要的但只是一列。

df.groupby(['Year created', 'Week created']).size()

输出：

Year created  Week created
2017          48               2
              49              25
              50              54
              51              36
              52               1
2018          1               17
              2               50
              3               37

但它只是一列，我不知道哪一个，因为即使我将三个部分的数据分开并对每个部分执行相同的程序，我也得到相同的结果（如上所述）。 / p>

Answer 1

我认为需要drop_duplicates：

df = df.drop_duplicates(['Year created', 'Week created'])
print (df)
   Year created  Week created  SUM_New  SUM_Closed  SUM_Open
0          2018             1       17           0        82
1          2018             6       62          47        18

Answer 2

 String DATE_FORMAT = "dd-MM-yyyy hh:mm:ss a";
 SimpleDateFormat formatter = new SimpleDateFormat(DATE_FORMAT);

 Date currentTime = new Date(); 
 String dateToday = formatter.format(currentTime);
 Date date = formatter.parse(dateToday);

 DateTime dt = new DateTime(date);
 DateTimeZone dtZone = DateTimeZone.forID("America/New_York");  
 DateTime dtus = dt.withZone(dtZone); //last line

希望这会有所帮助。

如何使用两个条件（前两列）删除重复组3列？

2 个答案: