我试图计算每个用户在24小时内发布的评论数。换句话说:计算24小时内重复的次数(=使用者编号)。如果count> = 5,我想记录下来。
示例(下面的最终输出):
如果ID 521的用户在
上发布了评论end_date_24 19/02/2018 18:00的第一个计数应为5,第二个end_date_24 19/02/2018 18:40的第二个计数也应为5
输入数据:
print(df)
Date User_ID Post_ID
0 13/02/2018 02:08 521 11
1 13/02/2018 05:15 100 12
2 19/02/2018 03:52 100 13
3 19/02/2018 15:05 521 14
4 19/02/2018 15:53 521 15
5 19/02/2018 15:55 521 16
6 19/02/2018 16:00 521 17
7 19/02/2018 16:53 100 18
8 19/02/2018 18:00 521 19
9 20/02/2018 18:40 521 20
预期输出:
End_Date_24 Count_last_24H User_ID
0 19/02/2018 18:00 5 521
1 19/02/2018 18:40 5 521
答案 0 :(得分:0)
我会去买熊猫。然后写了一个函数wchich将数据帧缩小为具有给定时间段和给定用户ID的记录。最后,计数并记录是否满足条件。 看看pandas' DataFrame。我认为它可以为您提供所需的一切。