Python Pandas:我如何确定数据集的分布?

时间:2015-02-18 13:54:27

标签: python pandas plot histogram

这是我的数据集,包含两列NS和count。

    NS                                                count
0   ns18.dnsdhs.com.                                  1494
1   ns0.relaix.net.                                   1835
2   ns2.techlineindia.com.                            383
3   ns2.microwebsys.com.                              1263
4   ns2.holy-grail-body-transformation-program.com.   1
5   ns2.chavano.com.                                  1
6   ns1.x10host.ml.                                   17
7   ns1.amwebaz.info.                                 48
8   ns2.guacirachocolates.com.br.                     1
9   ns1.clicktodollars.com.                           2

现在我想通过绘制它来看看有多少NS具有相同的计数。我自己的猜测是,我可以使用直方图来查看,但我不知道如何。有人可以帮忙吗?

1 个答案:

答案 0 :(得分:2)

从您的评论中,我猜测您的数据表实际上要长得多,并且您希望看到名称服务器counts的分布(无论计数在这里)。

我认为你应该能够做到这一点:

df.hist(column="count")

你会得到你想要的东西。如果这就是你想要的。

pandas拥有适合所有功能的文档,直方图描述为here

如果您确实想要查看“有多少具有相同的计数”,而不是代表分配,那么您需要将bins kwarg设置为df["count"].max()-df["count"].min() - 或者按照你的说法做,并计算你获得每个count的次数,然后创建一个条形图。

可能是这样的:

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

一种替代的,更清晰的方法,我完全错过了,并且在下面指出,只是使用Counter的标准构造函数:

count_counter = Counter(df['count'])