在pandas / numpy中计算模式周围的频带

时间:2014-12-09 16:27:59

标签: python numpy pandas bokeh

我有一个数据集的pandas系列value_counts。我想用彩色带绘制数据(我使用散景,但计算数据带是重要的部分):

我毫不犹豫地使用标准偏差这个词,因为我使用的所有参考都是基于平均值来计算的,我特别想以模式为中心。

所以,基本上,我在pandas中寻找一种方式从模式开始,然后返回一个值为count_counts总和的68.2%的新系列。如果我有这个系列:

val  count
1    0
2    0
3    3
4    1
5    2
6    5    <-- mode
7    4  
8    3    
9    2   
10   1

total = sum(count) # example value 21
band1_count = 21 * 0.682 # example value ~ 14.3

这是他们将基于算法来添加的顺序,该算法在模式的每一侧行走值计数并且包括两者中的较高者,直到计数的总和> 1。比14.3。

band1_values = [6, 7, 8, 5, 9]

以下是步骤:

val  count   step
1    0
2    0
3    3
4    1
5    2    <-- 4) add to list -- eq (9,2), closer to (6,5)
6    5    <-- 1) add to list -- mode
7    4    <-- 2) add to list -- gt (5,2)
8    3    <-- 3) add to list -- gt (5,2)
9    2    <-- 5) add to list -- gt (4,1), stop since sum of counts > 14.3
10   1 

在pandas或numpy中有没有本地方式进行此计算?如果这项研究有正式名称,我将很高兴知道它的名称。

0 个答案:

没有答案