将行附加到pandas中的组

时间:2018-05-25 12:39:18

标签: python pandas dataframe

我试图在pandas数据框中为每个组添加一些NaN行。基本上我想将每组填充为5行长。订购很重要。我有:

library(Hmisc)
terr %>% 
  split(list(.$Macro.Region, .$Religion)) %>% 
  keep(~nrow(.) > 4) %>% 
  map(~rcorr(cbind(.$Killed, .$GDP.capita, .$Terr..Attacks)))
$`Latin America.Christianity`
     [,1]  [,2]  [,3]
[1,]    1   NaN   NaN
[2,]  NaN  1.00 -0.15
[3,]  NaN -0.15  1.00

n
     [,1] [,2] [,3]
[1,]    8    6    8
[2,]    6    6    6
[3,]    8    6    8

P
     [,1] [,2]   [,3]  
[1,]                   
[2,]             0.7703
[3,]      0.7703  

我想:

    Rank id
0   1  a
1   2  a
2   3  a
3   4  a
4   5  a
5   1  c
6   2  c
7   1  e
8   2  e
9   3  e

6 个答案:

答案 0 :(得分:5)

使用pd.crosstab

df = pd.crosstab(df.Rank, df.ID).iloc[:5].unstack().reset_index()
df.loc[(df[0]==0),'Rank'] = np.nan
del df[0]

输出:

   ID  Rank
0   a   1.0
1   a   2.0
2   a   3.0
3   a   4.0
4   a   5.0
5   c   1.0
6   c   2.0
7   c   NaN
8   c   NaN
9   c   NaN
10  e   1.0
11  e   2.0
12  e   3.0
13  e   NaN
14  e   NaN

另一种方法,假设df中的最大组大小恰好是5。

In [251]: df.groupby('ID').Rank.apply(np.array).apply(pd.Series).stack(dropna=False)
Out[251]: 
ID
a   0    1.0
    1    2.0
    2    3.0
    3    4.0
    4    5.0
c   0    1.0
    1    2.0
    2    NaN
    3    NaN
    4    NaN
e   0    1.0
    1    2.0
    2    3.0
    3    NaN
    4    NaN
dtype: float64

完整的解释:

import pandas as pd
import numpy as np

df = pd.read_csv(pd.compat.StringIO("""Rank ID
0   1  a
1   2  a
2   3  a
3   4  a
4   5  a
6   1  c
7   2  c
8   1  e
9   2  e
10  3  e"""), sep=r' +')

df = pd.crosstab(df.Rank, df.ID).iloc[:5].T.stack().reset_index()
df.loc[(df[0]==0),'Rank'] = np.nan
del df[0]

# pd.crosstab(df.Rank, df.ID) produces:

# ID    a  c  e
# Rank
# 1.0   1  1  1
# 2.0   1  1  1
# 3.0   1  0  1
# 4.0   1  0  0
# 5.0   1  0  0

# applying .T.stack().reset_index() yields:

   # ID  Rank  0
# 0   a   1.0  1
# 1   a   2.0  1
# 2   a   3.0  1
# 3   a   4.0  1
# 4   a   5.0  1
# 5   c   1.0  1
# 6   c   2.0  1
# 7   c   3.0  0
# 8   c   4.0  0
# 9   c   5.0  0
# 10  e   1.0  1
# 11  e   2.0  1
# 12  e   3.0  1
# 13  e   4.0  0
# 14  e   5.0  0

# finally, use df[0] to filter df['Rank']

答案 1 :(得分:4)

concatreindex

此解决方案不会考虑Rank列中的值,只会在需要更多行时添加更多行。

pd.concat([
    d.reset_index(drop=True).reindex(range(5)).assign(id=n)
    for n, d in df.groupby('id')
], ignore_index=True)

    Rank id
0    1.0  a
1    2.0  a
2    3.0  a
3    4.0  a
4    5.0  a
5    1.0  c
6    2.0  c
7    NaN  c
8    NaN  c
9    NaN  c
10   1.0  e
11   2.0  e
12   3.0  e
13   NaN  e
14   NaN  e

相同的答案措辞有点不同

f = lambda t: t[1].reset_index(drop=True).reindex(range(5)).assign(id=t[0])
pd.concat(map(f, df.groupby('id')), ignore_index=True)

factorize

此解决方案生成来自idRank

的唯一值的笛卡尔积
i, r = df.id.factorize()
j, c = df.Rank.factorize()
b = np.empty((r.size, c.size))
b.fill(np.nan)
b[i, j] = df.Rank.values

pd.DataFrame(dict(Rank=b.ravel(), id=r.repeat(c.size)))

    Rank id
0    1.0  a
1    2.0  a
2    3.0  a
3    4.0  a
4    5.0  a
5    1.0  c
6    2.0  c
7    NaN  c
8    NaN  c
9    NaN  c
10   1.0  e
11   2.0  e
12   3.0  e
13   NaN  e
14   NaN  e

答案 2 :(得分:3)

你可以使用id和pd.concat的频率来合并重复,即

di = (5-df.groupby('id').size()).to_dict()

temp = pd.concat([pd.DataFrame({
                'Rank':np.nan,
                'id': pd.Series(np.repeat(i,di[i]))
                }) for i in df['id'].unique()])

ndf = pd.concat([df,temp],ignore_index=True).sort_values('id')

    Rank id
0    1.0  a
1    2.0  a
2    3.0  a
3    4.0  a
4    5.0  a
5    1.0  c
6    2.0  c
10   NaN  c
11   NaN  c
12   NaN  c
7    1.0  e
8    2.0  e
9    3.0  e
13   NaN  e
14   NaN  e

答案 3 :(得分:1)

一种可能的解决方案是numpy.repeat创建帮助DataFrame,然后append创建原始,sort_values

s = (5 - df['id'].value_counts())
df = (df.append(pd.DataFrame({'id':np.repeat(s.index, s.values), 'Rank':np.nan}))
       .sort_values('id')
       .reset_index(drop=True))
print (df)
    Rank id
0    1.0  a
1    2.0  a
2    3.0  a
3    4.0  a
4    5.0  a
5    1.0  c
6    2.0  c
7    NaN  c
8    NaN  c
9    NaN  c
10   1.0  e
11   2.0  e
12   3.0  e
13   NaN  e
14   NaN  e

另一种解决方案是groupby使用自定义函数和append无法进行排序:

def f(x):
    return x.append(pd.DataFrame([[np.nan, x.name]] * (5 - len(x)), columns=['Rank','id']))
df = df.groupby('id', sort=False).apply(f).reset_index(drop=True)
print (df)
   Rank id
0     1  a
1     2  a
2     3  a
3     4  a
4     5  a
5     1  c
6     2  c
7   NaN  c
8   NaN  c
9   NaN  c
10    1  e
11    2  e
12    3  e
13  NaN  e
14  NaN  e

答案 4 :(得分:0)

以下是使用pd.DataFrame.append后面的单个sort_values的一种方式。

from itertools import chain

counts = df.groupby('id')['Rank'].count()

lst = list(chain.from_iterable([[np.nan, i]]*(5-c) for i, c in counts.items()))

res = df.append(pd.DataFrame(lst, columns=df.columns))\
        .sort_values(['id', 'Rank'])\
        .reset_index(drop=True)

print(res)

    Rank id
0    1.0  a
1    2.0  a
2    3.0  a
3    4.0  a
4    5.0  a
5    1.0  c
6    2.0  c
7    NaN  c
8    NaN  c
9    NaN  c
10   1.0  e
11   2.0  e
12   3.0  e
13   NaN  e
14   NaN  e

答案 5 :(得分:0)

到目前为止,

一个很好的答案。我有另一个想法,因为使用外部联接pd.merge,它更适合我正在处理的问题。 除了上面的示例外,我还有几个度量标准列(在此示例中为m1和m2),对于每个不包含那些Rank值的组,我都希望将其设置为零。就我而言,排名只是一个时间维度,而我的df包含多个ID上的时间序列。

df = pd.read_csv(pd.compat.StringIO("""Rank ID m1 m2
0   1  a 1 3
1   2  a 2 3
2   3  a 1 2
3   4  a 1 3
4   5  a 2 3
6   1  c 2 2
7   2  c 2 4
8   1  e 1 3
9   2  e 1 4
10  3  e 1 2"""), sep=r' +')

然后我定义包含所有等级的df,在此示例中为1到10。

df_outer_right = pd.DataFrame({'Rank':np.arange(1,11,1)})

最后,我按ID将初始df分组,并使用pd.merge在每个组上应用外部联接。

df.groupby('ID').apply(lambda df: pd.merge(df, df_outer_right, how='outer', on='Rank'))

产生:

ID  Rank    ID  m1  m2
a   0   1   a   1.0 3.0
a   1   2   a   2.0 3.0
a   2   3   a   1.0 2.0
a   3   4   a   1.0 3.0
a   4   5   a   2.0 3.0
a   5   6   NaN NaN NaN
a   6   7   NaN NaN NaN
a   7   8   NaN NaN NaN
a   8   9   NaN NaN NaN
a   9   10  NaN NaN NaN
c   0   1   c   2.0 2.0
c   1   2   c   2.0 4.0
c   2   3   NaN NaN NaN
c   3   4   NaN NaN NaN
c   4   5   NaN NaN NaN
c   5   6   NaN NaN NaN
c   6   7   NaN NaN NaN
c   7   8   NaN NaN NaN
c   8   9   NaN NaN NaN
c   9   10  NaN NaN NaN
e   0   1   e   1.0 3.0
e   1   2   e   1.0 4.0
e   2   3   e   1.0 2.0
e   3   4   NaN NaN NaN
e   4   5   NaN NaN NaN
e   5   6   NaN NaN NaN
e   6   7   NaN NaN NaN
e   7   8   NaN NaN NaN
e   8   9   NaN NaN NaN
e   9   10  NaN NaN NaN

我很确定这可能不是最快的解决方案:)