我有一个数据表,其中包含2个字段user_id,article_id用于对特定文章有书面评论的用户(暗示了很多关系)。
我将数据分组如下:
分组= df_selected ['article_id']。groupby([df_selected ['user_id'],df_selected ['article_id']])
这基本上为我提供了针对所有用户的给定特定用户的每篇article_ids的评论计数 - 请参阅表格。生成的对象是类型系列。
我想做的两件事:
(1)命名第3列并将整个对象转换为熔融数据格式表的最佳方法是什么(即,即使'user_id'在多行中重复,每个'单元'也有信息 - 所以在将重复图片user_ids 2和3的示例?
(2)我想检查的一件事是没有用户针对特定文章写了多个评论(这是图片中的第3列) - 如何通过此列过滤来检查? (欣赏我可以遍历分组对象 - 但是想知道是否存在这样做的矢量化方式......)
我想要做的是用1,2,3 ...评论来计算user_ids的数量。
提前致谢。
user_id article_id no of comments
6 73 2
43 18 2
290 2
311 2
374 763 2
1539 2
380 690 4
820 3
863 2
387 575 2
575 2
690 2
702 2