绘制CDF以进行排名分布

时间:2019-12-26 09:26:53

标签: pandas histogram distribution frequency cdf

我有一个看起来像这样的熊猫数据框,它是通过groupby命令生成的,然后按#个用户进行排序,以便为我提供前X个功能组合的用户计数。

count_28day,  Feature1,   Feature2,  Feature3
5000           a1           b1         c1
1000           a2           b2         c2
50             a3           b3         c3

我正在尝试绘制用户分布的cdf。我不需要了解功能。我只想显示最主要的X功能组合,这些组合将给我90%的总用户。

我正在以一种非常古怪的方式来做到这一点。

topx = table.count_28day.sort_values(ascending=False).cumsum()/sum(table.count_28day)
ser_cdf = pd.Series(topx.tolist()[1:100], index=pd.Series(range(1,100)))
ser_cdf.plot(drawstyle='steps')

使用直方图或ecdf或其他方法是否有更优雅的方法?

0 个答案:

没有答案