如何处理pandas数据框中的重复字段?

时间:2018-04-17 10:25:27

标签: python pandas

我想对从论坛中删除的数据做一些分析。这是我第一次做这样的事情,所以我的方法可能从一开始就错了,但这就是我现在所拥有的。

我已经讨论了17k讨论,每个讨论都包含一定数量的帖子(总共78,000个帖子)。我已将所有内容存储在包含6列的数据框中。每行对应一个帖子,列分别为:

'thread_id', 'thread_length', 'thread_title', 'post_number', 'post content' ,'poster'

正如您所看到的,与线程相关的值(因此标题,ID和长度)会重复很多次:例如,如果一个帖子有30个帖子,其ID,长度和标题将重复30次

我的问题是:如何绘制螺纹长度的直方图?我可能只应该选择具有不同线程id值的长度值,但我无法弄清楚如何做到这一点。此外,我想必须有一个“更清洁”的方式来组织这个数据框架,所以我愿意接受任何建议。

1 个答案:

答案 0 :(得分:2)

列对我来说很好看。您可以使用:

df.drop_duplicates('thread_id').thread_length.plot.hist()
  • drop_duplicates仅通过考虑thread_id列来识别重复项,保留第一次出现(默认情况下)。
  • 然后我选择thread_length列,
  • 为您提供Series,您可以使用方法plot hist来获取直方图。