解析数据框中的多个字典列以分隔列

时间:2020-01-28 10:04:35

标签: python pandas dataframe dictionary

我有一个熊猫数据框,其中的一列包含多个字典值。

我使用pd.series将那些字典拼凑成单独的列。现在,一列分为14列。但是它仍然在14列的每一行中都有字典值。

以A,B,C ..方式采样具有14列的数据:

index     A                                                                                  B                                                                C
  0      {'field_name': 'Supplier Name',                                            {'field_name': 'BG', 'user_value': None,                              {'field_name': 'VATNumber', 'user_value': None,
         'user_value': None, 'value' : 'ABCD'}                         'value': '764065'}                                                   'value': 'SE1234556'}

如何进一步将它们提取为单独的列,如下所示:

field_name               user_value      value
Supplier Name            None            ABCD
BG                       None            764065         
VATNumber                None            SE1234556

代码:

df = pd.DataFrame(data) #data is a list of 'values'
df1 = df['values'].apply(pd.Series)
#naming the multiple columns as A, B..
column_names = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O']
df1 = pd.DataFrame(df1.values, columns = column_names)

1 个答案:

答案 0 :(得分:0)

您可以使用json_normalize将字典归一化为列

from pandas.io.json import json_normalize
pd.concat([json_normalize(df[c]) for c in df])

    field_name      user_value  value
0   Supplier Name   None        ABCD
0   BG              None        764065
0   VATNumber       None        SE1234556