如何将3级字典转换为所需的格式?

时间:2016-12-22 08:05:57

标签: python python-3.x pandas

我有一个这样的3级字典:

data={'2016-11-28': {'area1': {'am': -0.007, 'pm': 0.008}, 'area2': {'am': 0.0, 'pm': 0.0}, 'area3': {'am': -0.01, 'pm': -0.001}},'2016-11-29':{'area1': {'am': -0.007, 'pm': 0.008}, 'area2': {'am': 0.0, 'pm': 0.0}, 'area3': {'am': -0.01, 'pm': -0.001}}}

我想将其转换为数据框,我尝试了:

tickers=data['2016-11-28'].keys()
iterables=[tickers,['am','pm']]
index=pd.MultiIndex.from_product(iterables, names=['ticker', 'time'])
frame=pd.DataFrame(data,index=index)

但我得到了

                2016-11-28  2016-11-29
ticker time                        
area1  am           NaN         NaN
       pm           NaN         NaN
area3  am           NaN         NaN
       pm           NaN         NaN
area2  am           NaN         NaN
       pm           NaN         NaN

数据框中没有值,只有列名和索引名。我的代码出了什么问题?有人可以帮忙吗?非常感谢!

1 个答案:

答案 0 :(得分:2)

这是我自己的解决方案:三重for循环强制字典符合层次索引的规则{'col1':{('row1_level0', 'row1_level1'):value}}

使用时看起来像这样

pd.DataFrame({'col1':{('rowidx0_level0', 'rowidx0_level1'):5}})

                         col1
rowidx0_level0 rowidx0_level1     5

这是实施

d = {}
for date, areas in data.items():
    d[date] = {}
    for area, times in areas.items():
        for time, value in times.items():
            d[date][(area, time)] = value 

pd.DataFrame(d)

          2016-11-28  2016-11-29
area1 am      -0.007      -0.007
      pm       0.008       0.008
area2 am       0.000       0.000
      pm       0.000       0.000
area3 am      -0.010      -0.010
      pm      -0.001      -0.001

这就是实际字典d的样子:

{'2016-11-28': {('area1', 'am'): -0.007,
  ('area1', 'pm'): 0.008,
  ('area2', 'am'): 0.0,
  ('area2', 'pm'): 0.0,
  ('area3', 'am'): -0.01,
  ('area3', 'pm'): -0.001},
 '2016-11-29': {('area1', 'am'): -0.007,
  ('area1', 'pm'): 0.008,
  ('area2', 'am'): 0.0,
  ('area2', 'pm'): 0.0,
  ('area3', 'am'): -0.01,
  ('area3', 'pm'): -0.001}}

采用@acushner链接的答案。

dates = []
frames = []

for date, d in data.items():
    dates.append(date)
    frames.append(pd.DataFrame.from_dict(d, orient='index').stack())

pd.concat(frames, keys=dates, axis=1)

          2016-11-28  2016-11-29
area1 pm       0.008       0.008
      am      -0.007      -0.007
area2 pm       0.000       0.000
      am       0.000       0.000
area3 pm      -0.001      -0.001
      am      -0.010      -0.010