Question

我想对从论坛中删除的数据做一些分析。这是我第一次做这样的事情，所以我的方法可能从一开始就错了，但这就是我现在所拥有的。

我已经讨论了17k讨论，每个讨论都包含一定数量的帖子（总共78,000个帖子）。我已将所有内容存储在包含6列的数据框中。每行对应一个帖子，列分别为：

'thread_id', 'thread_length', 'thread_title', 'post_number', 'post content' ,'poster'

正如您所看到的，与线程相关的值（因此标题，ID和长度）会重复很多次：例如，如果一个帖子有30个帖子，其ID，长度和标题将重复30次

我的问题是：如何绘制螺纹长度的直方图？我可能只应该选择具有不同线程id值的长度值，但我无法弄清楚如何做到这一点。此外，我想必须有一个“更清洁”的方式来组织这个数据框架，所以我愿意接受任何建议。

Answer 1

列对我来说很好看。您可以使用：

df.drop_duplicates('thread_id').thread_length.plot.hist()