用熊猫进行数据分析?

时间:2013-06-15 05:22:56

标签: python pandas

我有一个数据文件,其中的字段以逗号分隔,我是从某人那里收到的。我必须系统地浏览每一栏,以了解通常的描述性统计数据: -min - 最大 -意思 -25th百分位数 -50th百分位数 -75th百分位

或者如果是文字: - 不同值的数量

但我也需要找到 - 空值或缺失值的数量 - 零的数量

有时,功能的奇怪意味着什么,即包含信息。我可能需要向客户回顾一下我发现的奇怪之处。或者,如果我要替换值,我必须确保我不会肆无忌惮地碾压它。

所以我的问题是这样的:python中是否有一个包可以在没有我假设的数据类型的情况下找到它?如果确实存在,熊猫会成为一个好家吗?

我发现大熊猫很容易让人感到轻松,但是在开始时我只想看看。

1 个答案:

答案 0 :(得分:1)

您可以使用describe方法:

In [1]: df = pd.DataFrame(randn(10, 3), columns=list('ABC'))

In [2]: df
Out[2]:
          A         B         C
0  1.389738 -0.205485 -0.775810
1 -1.166596 -0.898761 -1.805333
2 -1.016509 -0.816037  0.169265
3 -0.440860 -1.147164  1.558606
4  0.763012  1.068694 -0.711795
5  0.075961 -0.597715  0.699023
6  3.006095 -0.354879 -0.718440
7 -1.249588 -0.372235  1.611717
8  0.518770 -0.742766  1.956372
9  1.304080 -0.803262 -0.609970

In [3]: df.describe()
Out[3]:
               A          B          C
count  10.000000  10.000000  10.000000
mean    0.318410  -0.486961   0.137363
std     1.360633   0.616566   1.266616
min    -1.249588  -1.147164  -1.805333
25%    -0.872596  -0.812843  -0.716779
50%     0.297366  -0.670240  -0.220352
75%     1.168813  -0.359218   1.343710
max     3.006095   1.068694   1.956372

它有一个percentile_width参数,默认为50。