我想对从论坛中删除的数据做一些分析。这是我第一次做这样的事情,所以我的方法可能从一开始就错了,但这就是我现在所拥有的。
我已经讨论了17k讨论,每个讨论都包含一定数量的帖子(总共78,000个帖子)。我已将所有内容存储在包含6列的数据框中。每行对应一个帖子,列分别为:
'thread_id', 'thread_length', 'thread_title', 'post_number', 'post content' ,'poster'
正如您所看到的,与线程相关的值(因此标题,ID和长度)会重复很多次:例如,如果一个帖子有30个帖子,其ID,长度和标题将重复30次
我的问题是:如何绘制螺纹长度的直方图?我可能只应该选择具有不同线程id值的长度值,但我无法弄清楚如何做到这一点。此外,我想必须有一个“更清洁”的方式来组织这个数据框架,所以我愿意接受任何建议。
答案 0 :(得分:2)
列对我来说很好看。您可以使用:
df.drop_duplicates('thread_id').thread_length.plot.hist()
drop_duplicates
仅通过考虑thread_id
列来识别重复项,保留第一次出现(默认情况下)。thread_length
列,Series
,您可以使用方法plot
hist
来获取直方图。