24小时内计算重复/重复ID

时间:2019-04-18 10:17:48

标签: python count duplicates timestamp recurring

我试图计算每个用户在24小时内发布的评论数。换句话说:计算24小时内重复的次数(=使用者编号)。如果count> = 5,我想记录下来。

示例(下面的最终输出):

  1. 如果ID为100的用户在13/02/2018 05:15和19/02/2018 03:52和19/02/2018 16:53发表评论,则此用户ID的计数应为2。但是我不想把它写下来,因为它不是> = 5
  2. 如果ID 521的用户在

    上发布了评论
    • 13/02/2018 02:08,
    • 19/02/2018 15:05,
    • 19/02/2018 15:53,
    • 19/02/2018 15:55,
    • 19/02/2018 16:00,
    • 19/02/2018 18:00,
    • 20/02/2018 18:40

    end_date_24 19/02/2018 18:00的第一个计数应为5,第二个end_date_24 19/02/2018 18:40的第二个计数也应为5

输入数据:

print(df)
               Date  User_ID  Post_ID
0  13/02/2018 02:08      521       11
1  13/02/2018 05:15      100       12
2  19/02/2018 03:52      100       13
3  19/02/2018 15:05      521       14
4  19/02/2018 15:53      521       15
5  19/02/2018 15:55      521       16
6  19/02/2018 16:00      521       17
7  19/02/2018 16:53      100       18
8  19/02/2018 18:00      521       19
9  20/02/2018 18:40      521       20

预期输出:

        End_Date_24  Count_last_24H  User_ID
0  19/02/2018 18:00               5      521
1  19/02/2018 18:40               5      521

1 个答案:

答案 0 :(得分:0)

我会去买熊猫。然后写了一个函数wchich将数据帧缩小为具有给定时间段和给定用户ID的记录。最后,计数并记录是否满足条件。 看看pandas' DataFrame。我认为它可以为您提供所需的一切。