Python:如何用零填充?

时间:2019-03-21 13:27:00

标签: python pandas numpy zero-padding

假设我们有一个如下数据框:

df = pd.DataFrame({ 'Col1' : ['a', 'a', 'a', 'a', 'b', 'b', 'c', 'c'],
        'col2' : ['0.5', '0.78', '0.78', '0.4', '2', '9', '2', '7',]
        })

我计算了col1中所有唯一值的行数。像a有4行,bc都有2行,方法是:

df.groupby(['Col1']).size()

我得到的输出为

Col1
a    4
b    2
c    2
dtype: int64

完成此操作后,我想检查a,b,c中的哪一行具有最大的行数(在这种情况下,a具有最大的行数),并填充其他行({{1} }和b),其最大值与它们所具有的行之间的差,并且为零(cb分别具有2行,因为4是行,我想用另外2个零填充cb。必须在末尾添加零。

我想用零填充,因为我想在所有变量(a,b,c)上应用固定大小的窗口来绘制图形。

2 个答案:

答案 0 :(得分:2)

您可以通过GroupBy.cumcount创建计数器,通过DataFrame.reindex创建的所有组合分别创建MultiIndexMultiIndex.from_product

df1 = df.set_index(['Col1', df.groupby('Col1').cumcount()])

mux = pd.MultiIndex.from_product(df1.index.levels, names=df1.index.names)
df2 = df1.reindex(mux, fill_value=0).reset_index(level=1, drop=True).reset_index()
print (df2)
   Col1  col2
0     a   0.5
1     a  0.78
2     a  0.78
3     a   0.4
4     b     2
5     b     9
6     b     0
7     b     0
8     c     2
9     c     7
10    c     0
11    c     0

答案 1 :(得分:1)

与Jez使用cumcount的逻辑相同,但使用stackunstack

df.assign(key2=df.groupby('Col1').cumcount()).set_index(['Col1','key2']).unstack(fill_value=0).stack().reset_index('Col1')
Out[1047]: 
     Col1  col2
key2           
0       a   0.5
1       a  0.78
2       a  0.78
3       a   0.4
0       b     2
1       b     9
2       b     0
3       b     0
0       c     2
1       c     7
2       c     0
3       c     0