我要尝试将大量JSON数据放入具有一些特定特征的pandas数据框中。
这是JSON中的示例条目(条目以行分隔):
{
"meta": {
"sessionId": "cjsxv6zft00003idmxmhuizqi",
"page": "/Guide/Samsung+Galaxy+S9+Motherboard+Replacement/119296",
"time": 1551916810050
},
"metrics": {
"stepTimeSpent": {
"s224944": 10,
"s229191": 10,
"s224945": 10,
"s224946": 10,
},
"stepThumbnailHoverCount": {
"step3-stepImage1-1619224": 0,
"step3-stepImage2-1619225": 0,
"step3-stepImage3-1619232": 0,
},
"clickedGivePoints": false,
"commentsTimeSpent": 10
}
}
我希望由sessionId为我的数据帧中的行建立索引(尽管它们是否有序无关紧要)。另外,如果有多个具有相同sessionId的条目,则我只想要数据框中的最新条目(最长的时间)。
我希望数据框具有以下列:
“ stepTimeSpent”和“ stepThumbnailHover”列应为整数列表(值)。
我这里真正的问题是试图弄清楚所有这些事情的执行顺序。我不确定将JSON行添加到数据框时可以做什么,以及在创建数据框后(如果有的话)应该做什么。
这里真正的好处是,我想将30gb的JSON数据放入数据帧,因此效率是关键。如果我必须使用较少的数据,那么格式化就更重要。