Question

我有一个DataFrame，我需要将标题拆分为多行作为同一Dataframe的标题。

数据框看起来像这样，

我的数据框架如下所示，

gene    ALL_ID_1    AML_ID_1    AML_ID_2    AML_ID_3    AML_ID_4    AML_ID_5    Stroma_ID_1 Stroma_ID_2 Stroma_ID_3 Stroma_ID_4 Stroma_ID_5 Stroma_CR_Pat_4 Stroma_CR_Pat_5 Stroma_CR_Pat_6 Stroma_CR_Pat_7 Stroma_CR_Pat_8
ENSG    8   1   11  5   10  0   628 542 767 578 462 680 513 968 415 623
ENSG    0   0   1   0   0   0   0   28  1   3   0   1   4   0   0   0
ENSG    661 1418    2580    6817    14727   5968    9   3   5   9   2   9   3   3   5   1
ENSG    20  315 212 8   790 471 1283    2042    1175    2839    1110    857 1880    1526    2262    2624
ENSG    11  26  24  9   11  2   649 532 953 463 468 878 587 245 722 484

我希望上面的标题如下所示，

  network   ID  ID                               REL                
node    B_ALL   AML                 Stroma                                  
hemi    1   1   2   3   4   5   1   2   3   4   5   6   7   8   9   10
ENSG    8   1   11  5   10  0   628 542 767 578 462 680 513 968 415 623
ENSG    0   0   1   0   0   0   0   28  1   3   0   1   4   0   0   0
ENSG    661 1418    2580    6817    14727   5968    9   3   5   9   2   9   3   3   5   1
ENSG    20  315 212 8   790 471 1283    2042    1175    2839    1110    857 1880    1526    2262    2624
ENSG    11  26  24  9   11  2   649 532 953 463 468 878 587 245 722 484

非常感谢任何帮助..

Answer 1

可能不是你放在这里的最好的最小例子，很少有人具备理解你的上下文中network，node和hemi的主题知识。

您只需创建MultiIndex并将列索引替换为您创建的列索引：

您的示例中有3条规则：

1，每当＆＃39; Stroma＆＃39;找到后，该列属于REL，否则属于ID。
2，node是初始列名称的第一个字段
3，hemi是初始列名称的最后一个字段

然后，只需编码：

In [110]:
df.columns = pd.MultiIndex.from_tuples(zip(np.where(df.columns.str.find('Stroma')!=-1, 'REL', 'ID'),
                                           df.columns.map(lambda x: x.split('_')[0]),
                                           df.columns.map(lambda x: x.split('_')[-1])), 
                                       names=['network', 'node', 'hemi'])

print df

network   ID                                   REL                          \
node     ALL   AML                          Stroma                           
hemi       1     1     2     3      4     5      1     2     3     4     5   
gene                                                                         
ENSG       8     1    11     5     10     0    628   542   767   578   462   
ENSG       0     0     1     0      0     0      0    28     1     3     0   
ENSG     661  1418  2580  6817  14727  5968      9     3     5     9     2   
ENSG      20   315   212     8    790   471   1283  2042  1175  2839  1110   
ENSG      11    26    24     9     11     2    649   532   953   463   468   

network                               
node                                  
hemi       4     5     6     7     8  
gene                                  
ENSG     680   513   968   415   623  
ENSG       1     4     0     0     0  
ENSG       9     3     3     5     1  
ENSG     857  1880  1526  2262  2624  
ENSG     878   587   245   722   484

将标题拆分为DataFrame中的多个标头

1 个答案: