我有一张这样的桌子:
videoId userId viewedMintues totalMinutes
1007975 275308 10 26
1009304 304392 6 6
1009343 463588 3 23
100941 462406 1 26
100941 463199 12 26
100941 453169 23 26
以此类推。因此,我想使用plotly
中的python
创建同类群组保留图。但首先我要制作一张像这样的桌子
-----------------------------------------------------------
| viewedMintues | no_of_users | totalMinutes
videoId | 1 | 20 | 26
100941 | 2 | 19 | 26
| 3 | 19 | 26
| 4 | 15 | 26
... ... ...
| 19 | 5 | 26
| 20 | 4 | 26
------------------------------------------------------------
以此类推。制作完上述表格后,我想使用videoId
为每个for loop subplot
创建一个波形图,其图标题为videoId
,viewedMintues
在X轴上,图表的Y轴上的no_of_users
或% of users
,因此我可以了解最大用户辍学。该怎么办?
还有另一个问题,例如:
videoId userId viewedMinutes totalMinutes
100941 24467 13 26
100941 24467 19 26
在上述情况下,我想删除重复项,让用户注意max
分钟并过滤出最小值。
P.S。第二张表中的no_of_users
对应唯一编号。的那一刻观看视频的用户数量,我们可以从pd.Series.userId.nunique()
之类的视频中获取。
更新:
我已经能够制作一个像这样的数据框:
TotalUsers
videoId CohortGroup viewedMinutes totalMinutes
1017479 0 0 5 8
1 5 3
2 5 2
4 5 3
5 5 19
但是这里就像没有。到此刻为止查看过的用户数因此,在这种情况下,总数为此特定videoId
的观众总数为35。因此,在TotalUsers
中,我希望这样:
TotalUsers
videoId CohortGroup viewedMinutes totalMinutes
1017479 0 0 5 35
1 5 27 (35-8)
2 5 24 (27-3)
4 5 22 (24-2)
5 5 19 (22-3)
P.P.S。我想创建更多视频观看保留队列,类似这样的Retentionchart.jpg。