将pandas中的Column值复制到非零单元格并在其后聚合列

时间:2018-02-15 14:05:26

标签: python pandas dataframe

我的数据框看起来像这样

Index P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
  0    A          B   C          A    D    D    A    
  1    B          A              C    C    B         A
  2               C   D          

我想将其转换为

Index    P1         P2         P3
  0      A(P1W1)    A(P2W2)    A(P3W1)
  1      A(P1W3)    B(P2W4)    A(P3W2)
  2      B(P1W1)    C(P2W2)
  3      B(P1W3)    C(P2W3)
  4      C(P1W3)    D(P2W3)
  5      C(P1W4)    D(P2W4)
  6      D(P1W4)

基本上我想从第一个数据帧获取带有单元格值的列名,然后在P1 P2级别聚合它。

如果需要澄清,请询问

我完全不知道如何使用这个任何帮助将不胜感激

1 个答案:

答案 0 :(得分:3)

设置

txt = """\
Index P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
  0    A          B   C          A    D    D    A    
  1    B          A              C    C    B         A
  2               C   D            """

df = pd.read_fwf(pd.io.common.StringIO(txt), index_col=0).fillna('')
df

      P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
Index                                                            
0        A         B    C         A    D    D    A               
1        B         A              C    C    B         A          
2                  C    D                                        

解决方案

d = df + df.columns.map(lambda c: f'({c})')
pd.concat({
    g: d.stack().reset_index(drop=True)
    for g, d in d.where(df.astype(bool)).groupby(
        lambda col: col[:2], 1
    )
}, axis=1).fillna('')

        P1       P2       P3
0  A(P1W1)  A(P2W2)  A(P3W1)
1  B(P1W3)  D(P2W3)  A(P3W2)
2  C(P1W4)  D(P2W4)         
3  B(P1W1)  C(P2W2)         
4  A(P1W3)  C(P2W3)         
5  C(P1W3)  B(P2W4)         
6  D(P1W4)                 

详情

添加括在括号中的列

df + df.columns.map(lambda c: f'({c})')

          P1W1    P1W2     P1W3     P1W4    P2W1     P2W2     P2W3     P2W4     P3W1     P3W2    P3W3    P3W4
Index                                                                                                        
0      A(P1W1)  (P1W2)  B(P1W3)  C(P1W4)  (P2W1)  A(P2W2)  D(P2W3)  D(P2W4)  A(P3W1)   (P3W2)  (P3W3)  (P3W4)
1      B(P1W1)  (P1W2)  A(P1W3)   (P1W4)  (P2W1)  C(P2W2)  C(P2W3)  B(P2W4)   (P3W1)  A(P3W2)  (P3W3)  (P3W4)
2       (P1W1)  (P1W2)  C(P1W3)  D(P1W4)  (P2W1)   (P2W2)   (P2W3)   (P2W4)   (P3W1)   (P3W2)  (P3W3)  (P3W4)

使用蒙版在适当的位置制作NaN。这将使我们能够在理解中进行堆叠并放弃NaN以方便使用。

d = df + df.columns.map(lambda c: f'({c})')
d.where(df.astype(bool))

          P1W1 P1W2     P1W3     P1W4 P2W1     P2W2     P2W3     P2W4     P3W1     P3W2 P3W3 P3W4
Index                                                                                            
0      A(P1W1)  NaN  B(P1W3)  C(P1W4)  NaN  A(P2W2)  D(P2W3)  D(P2W4)  A(P3W1)      NaN  NaN  NaN
1      B(P1W1)  NaN  A(P1W3)      NaN  NaN  C(P2W2)  C(P2W3)  B(P2W4)      NaN  A(P3W2)  NaN  NaN
2          NaN  NaN  C(P1W3)  D(P1W4)  NaN      NaN      NaN      NaN      NaN      NaN  NaN  NaN

lambda分组,它将应用于我们选择的索引对象。我们会选择axis=1来定位列。