我有一个带有排序列的数据框,像这样:
df = pd.DataFrame({q: np.sort(np.random.randn(10).round(2)) for q in ['blue', 'green', 'red']})
blue green red
0 -2.15 -0.76 -2.62
1 -0.88 -0.62 -1.65
2 -0.77 -0.55 -1.51
3 -0.73 -0.17 -1.14
4 -0.06 -0.16 -0.75
5 -0.03 0.05 -0.08
6 0.06 0.38 0.37
7 0.41 0.76 1.04
8 0.56 0.89 1.16
9 0.97 2.94 1.79
我想知道的是,每一列中整帧中有多少 n 个最小元素。这是我唯一想到的:
is_small = df.isin(np.partition(df.values.flatten(), n)[:n])
n = 10看起来像这样:
blue green red
0 True True True
1 True False True
2 True False True
3 True False True
4 False False True
5 False False False
6 False False False
7 False False False
8 False False False
9 False False False
然后通过应用np.sum,我得到与每一列相对应的数字。
我对这种解决方案不满意,因为它绝不利用原始数据的排序性。 全部将数据分区,然后检查全部数据是否在分区中。这似乎很浪费,而且我似乎找不到更好的方法。
答案 0 :(得分:1)
让我们说,您正在寻找最小的10个,您可以堆叠并找到10个最小的value_count
df.stack().nsmallest(10).index.get_level_values(1).value_counts()
你得到
red 5
blue 4
green 1
答案 1 :(得分:1)
认为您可以将n个最小值中的最大值与已分区的值进行比较,然后使用idxmin
来利用排序后的性质-
# Find largest of n smallest numbers
N = (np.partition(df.values.flatten(), n)[:n]).max()
out = (df<=N).idxmin(axis=0)
样品运行-
In [152]: np.random.seed(0)
In [153]: df = pd.DataFrame({q: np.sort(np.random.randn(10).round(2)) \
for q in ['blue', 'green', 'red']})
In [154]: df
Out[154]:
blue green red
0 -0.98 -0.85 -2.55
1 -0.15 -0.21 -1.45
2 -0.10 0.12 -0.74
3 0.40 0.14 -0.19
4 0.41 0.31 0.05
5 0.95 0.33 0.65
6 0.98 0.44 0.86
7 1.76 0.76 1.47
8 1.87 1.45 1.53
9 2.24 1.49 2.27
In [198]: n = 5
In [199]: N = (np.partition(df.values.flatten(), n)[:n]).max()
In [200]: (df<=N).idxmin(axis=0)
Out[200]:
blue 1
green 1
red 3
dtype: int64