我试图按照概率对数据进行索引(用简单的直方图估算)。目标是选择系列中的项目,概率小于某个阈值。
我有一系列整数值,例如:
import pandas as pnd
import numpy as np
series = pnd.Series(np.random.poisson(5, size = 100))
然后我像这样计算他们的直方图:
tmp = {"series" : series, "count" : np.ones(len(series))}
hist = pnd.DataFrame(tmp).groupby("series").sum()
freq = hist / hist.sum()
所以现在我将每个结果的频率由结果和一系列结果索引。我现在有两个问题:
series
定义的结果/频率映射来索引freq
?感谢。
答案 0 :(得分:3)
是的,使用map
系列方法:
In [16]: series.map(freq['count'])
Out[16]:
0 0.12
1 0.06
2 0.20
3 0.11
4 0.02
5 0.13
6 0.14
7 0.11
8 0.12
9 0.16
10 0.20
<snip>
然后你可以这样做:
In [22]: series[series.map(freq['count']) > 0.16]
Out[22]:
2 4
10 4
11 4
22 4
27 4
31 4
34 4
56 4
64 4
71 4
73 4
76 4
77 4
79 4
80 4
86 4
88 4
89 4
91 4
99 4