来自嵌套字典的Pandas数据帧

时间:2015-11-09 14:51:37

标签: python dictionary pandas dataframe

我的字典看起来像这样:

{'x': {'b': 10, 'c': 20}, 'y': {'b': '33', 'c': 44}}

我希望得到一个如下所示的数据框:

index   col1    col2    val
0        x       b      10
1        x       c      20
2        y       b      33
3        y       c      44

我试过调用pandas.from_dict(),但它没有给我想要的结果。 那么,实现这一目标的最优雅,最实用的方法是什么?

编辑:实际上,我的字典深度为4,因此我希望看到针对该案例的解决方案,或理想情况下,在一般设置中适用于任意深度的解决方案。

以下是更深层词典的示例: {'x':{'a':{'m':1, 'n':2}, 'b':{'m':10, 'n':20}}, 'y':{'a':{'m':100, 'n':200}, 'b':{'m':111, 'n':222}} }相应的数据框应该有8行。

答案:

df = pd.DataFrame([(k1, k2, k3, k4, k5, v) for k1, k2345v in dict.items()
                           for k2, k345v in k2345v.items()
                           for k3, k45v in k345v.items()
                           for k4, k5v in k45v.items()
                           for k5, v in k5v.items()])

3 个答案:

答案 0 :(得分:2)

您可以使用列表推导将dict重新排序为元组列表,其中每个元组都是一行,然后您可以对数据帧进行排序

{{1}}

答案 1 :(得分:1)

首先使用from_dict创建df,然后调用stackreset_index以获得所需的形状,然后需要重命名cols,排序并重置索引:

In [83]:
d={'x': {'b': 10, 'c': 20}, 'y': {'b': '33', 'c': 44}}
df = pd.DataFrame.from_dict(d, orient='index').stack().reset_index()
df.columns = ['col1', 'col2', 'val']
df.sort_values(['col1', 'col2'], inplace=True)
df.reset_index(drop=True, inplace=True)
df

Out[83]:
  col1 col2 val
0    x    b  10
1    x    c  20
2    y    b  33
3    y    c  44

答案 2 :(得分:0)

对于任何深度,您都可以使用 pd.json_normalizemelt。下面是一个稍微修改了 2/3/4-deep 字典的例子

data = {'one': 1, 'two': {'a': 2}, 'four': {'a': {'b': {'c': 2}}},
        'x': {'a': {'m': 1, 'n': 2}, 'b': {'m': 10, 'n': 20}},
        'y': {'a': {'m': 100, 'n': 200}, 'b': {'m': 111, 'n': 222}}}
df_melt = pd.json_normalize(data, sep='>>').melt()
df_final = df_melt['variable'].str.split('>>', expand=True)
df_final.columns = [f'col{name}' for name in df_final.columns]
df_final[['value']] = df_melt['value']
    col0  col1  col2  col3  value
0    one  None  None  None      1
1    two     a  None  None      2
2   four     a     b     c      2
3      x     a     m  None      1
4      x     a     n  None      2
5      x     b     m  None     10
6      x     b     n  None     20
7      y     a     m  None    100
8      y     a     n  None    200
9      y     b     m  None    111
10     y     b     n  None    222

json_normalize 非常有用,Medium

上还有一些其他示例