熊猫:使用混合数据类型对Multiindex Dataframe的多级列进行排序

时间:2020-10-28 11:01:31

标签: python python-3.x pandas dataframe

下面是我的数据框:

In [2804]: df = pd.DataFrame({'A':[1,2,3,4,5,6], 'D':[{"value": '126', "perc": None, "unit": None}, {"value": 324, "perc": None, "unit": None}, {"value": 'N/A', "perc": None, "unit": None}, {}, {"value": '100', "perc": None, "unit": None}, np.nan]})

In [2794]: df.columns = pd.MultiIndex.from_product([df.columns, ['E']])

In [2807]: df
Out[2807]: 
   A                                             D
   E                                             E
0  1  {'value': '126', 'perc': None, 'unit': None}
1  2    {'value': 324, 'perc': None, 'unit': None}
2  3  {'value': 'N/A', 'perc': None, 'unit': None}
3  4                                            {}
4  5  {'value': '100', 'perc': None, 'unit': None}
5  6                                           NaN

我需要根据(D,E)中的value键,以降序对索引为dict的多级列进行排序。

如您所见,value键可以具有混合数据类型的值,例如int, string或空值,例如{}NaN

N/ANan值应始终在排序后最后显示(升序和降序)。

预期输出:

In [2814]: df1 = pd.DataFrame({'A':[2,1,5,3,4,6], 'D':[{"value": 324, "perc": None, "unit": None}, {"value": '126', "perc": None, "unit": None}, {"value": '100', "perc": None, "unit": None}, {"value": 'N/A', "perc": None, "unit": None}, {},np.nan]})

In [2799]: df1.columns = pd.MultiIndex.from_product([df1.columns, ['E']])

In [2811]: df1
Out[2811]: 
   A                                             D
   E                                             E
0  2    {'value': 324, 'perc': None, 'unit': None}
1  1  {'value': '126', 'perc': None, 'unit': None}
2  5  {'value': '100', 'perc': None, 'unit': None}
3  3  {'value': 'N/A', 'perc': None, 'unit': None}
4  4                                            {}
5  6                                           NaN

1 个答案:

答案 0 :(得分:1)

创建由数字填充并按此列排序的辅助列:

IO

df['tmp'] = pd.to_numeric(df[('D','E')].str.get('value'), errors='coerce')
df1 = df.sort_values('tmp', ascending=False).drop('tmp', axis=1)
print (df1)
   A                                             D
   E                                             E
1  2    {'value': 324, 'perc': None, 'unit': None}
0  1  {'value': '126', 'perc': None, 'unit': None}
4  5  {'value': '100', 'perc': None, 'unit': None}
2  3  {'value': 'N/A', 'perc': None, 'unit': None}
3  4                                            {}
5  6                                           NaN