Question

我有一个数据表，其中包含2个字段user_id，article_id用于对特定文章有书面评论的用户（暗示了很多关系）。

我将数据分组如下：

分组= df_selected ['article_id']。groupby（[df_selected ['user_id']，df_selected ['article_id']]）

这基本上为我提供了针对所有用户的给定特定用户的每篇article_ids的评论计数 - 请参阅表格。生成的对象是类型系列。

我想做的两件事：

（1）命名第3列并将整个对象转换为熔融数据格式表的最佳方法是什么（即，即使'user_id'在多行中重复，每个'单元'也有信息 - 所以在将重复图片user_ids 2和3的示例？

（2）我想检查的一件事是没有用户针对特定文章写了多个评论（这是图片中的第3列） - 如何通过此列过滤来检查？（欣赏我可以遍历分组对象 - 但是想知道是否存在这样做的矢量化方式......）

我想要做的是用1,2,3 ...评论来计算user_ids的数量。

提前致谢。

user_id  article_id  no of comments
6        73          2
43       18          2
         290         2
         311         2
374      763         2
         1539        2
380      690         4
         820         3
         863         2
387      575         2
         575         2
         690         2
         702         2

使用Pandas访问分组数据

0 个答案: