我想通过按字典格式的前2列分组来输出数据帧。这是我的数据框:
COMUNIDAD PROVINCIA EMPLAZAMIENTO
0 ANDALUCIA ALMERIA ALMERIA
1 ANDALUCIA ALMERIA EJIDO, EL
2 ANDALUCIA ALMERIA HUERCAL OVERA
3 ANDALUCIA ALMERIA PECHINA
4 ANDALUCIA ALMERIA VELEZ BLANCO
... ... ... ...
246 VALENCIA VALENCIA COFRENTES
247 VALENCIA VALENCIA MONDUBER
248 VALENCIA VALENCIA ONTENIENTE
249 VALENCIA VALENCIA PICAYO
250 VALENCIA VALENCIA UTIEL
我想要这个输出:
{
"ANDALUCIA":{
"ALMERIA":[
"ALMERIA",
"EJIDO, EL",
...
],
"CADIZ":[
"JEREZ DE LA FRONTERA",
...
]
},
"ARAGON":{
"HUESCA":[
"ARGUIS",
...
],
...
},
...
}
通过熊猫实现这一目标的最佳方法是什么?
答案 0 :(得分:1)
将GroupBy.agg
用于列表,然后创建嵌套字典:
s = df.groupby(['COMUNIDAD','PROVINCIA'])['EMPLAZAMIENTO'].agg(list)
d = {level: s.xs(level).to_dict() for level in s.index.levels[0]}
print (d)
{'ANDALUCIA': {'ALMERIA': ['ALMERIA', 'EJIDO, EL',
'HUERCAL OVERA', 'PECHINA', 'VELEZ BLANCO']},
'VALENCIA': {'VALENCIA': ['COFRENTES', 'MONDUBER',
'ONTENIENTE', 'PICAYO', 'UTIEL']}}
最后一次用于json:
import json
j = json.dumps(d)
print (j)
{"ANDALUCIA": {"ALMERIA": ["ALMERIA", "EJIDO, EL",
"HUERCAL OVERA", "PECHINA", "VELEZ BLANCO"]},
"VALENCIA": {"VALENCIA": ["COFRENTES", "MONDUBER",
"ONTENIENTE", "PICAYO", "UTIEL"]}}