我有一个数据文件,其中的字段以逗号分隔,我是从某人那里收到的。我必须系统地浏览每一栏,以了解通常的描述性统计数据: -min - 最大 -意思 -25th百分位数 -50th百分位数 -75th百分位
或者如果是文字: - 不同值的数量
但我也需要找到 - 空值或缺失值的数量 - 零的数量
有时,功能的奇怪意味着什么,即包含信息。我可能需要向客户回顾一下我发现的奇怪之处。或者,如果我要替换值,我必须确保我不会肆无忌惮地碾压它。
所以我的问题是这样的:python中是否有一个包可以在没有我假设的数据类型的情况下找到它?如果确实存在,熊猫会成为一个好家吗?
我发现大熊猫很容易让人感到轻松,但是在开始时我只想看看。
答案 0 :(得分:1)
您可以使用describe
方法:
In [1]: df = pd.DataFrame(randn(10, 3), columns=list('ABC'))
In [2]: df
Out[2]:
A B C
0 1.389738 -0.205485 -0.775810
1 -1.166596 -0.898761 -1.805333
2 -1.016509 -0.816037 0.169265
3 -0.440860 -1.147164 1.558606
4 0.763012 1.068694 -0.711795
5 0.075961 -0.597715 0.699023
6 3.006095 -0.354879 -0.718440
7 -1.249588 -0.372235 1.611717
8 0.518770 -0.742766 1.956372
9 1.304080 -0.803262 -0.609970
In [3]: df.describe()
Out[3]:
A B C
count 10.000000 10.000000 10.000000
mean 0.318410 -0.486961 0.137363
std 1.360633 0.616566 1.266616
min -1.249588 -1.147164 -1.805333
25% -0.872596 -0.812843 -0.716779
50% 0.297366 -0.670240 -0.220352
75% 1.168813 -0.359218 1.343710
max 3.006095 1.068694 1.956372
它有一个percentile_width
参数,默认为50。