JSON到具有特定列和索引的数据框

时间:2019-03-09 22:17:13

标签: python json pandas dataframe

我要尝试将大量JSON数据放入具有一些特定特征的pandas数据框中。

这是JSON中的示例条目(条目以行分隔):

{
  "meta": {
    "sessionId": "cjsxv6zft00003idmxmhuizqi",
    "page": "/Guide/Samsung+Galaxy+S9+Motherboard+Replacement/119296",
    "time": 1551916810050
  },
  "metrics": {
    "stepTimeSpent": {
      "s224944": 10,
      "s229191": 10,
      "s224945": 10,
      "s224946": 10,
    },
    "stepThumbnailHoverCount": {
      "step3-stepImage1-1619224": 0,
      "step3-stepImage2-1619225": 0,
      "step3-stepImage3-1619232": 0,
    },
    "clickedGivePoints": false,
    "commentsTimeSpent": 10
  }
}

我希望由sessionId为我的数据帧中的行建立索引(尽管它们是否有序无关紧要)。另外,如果有多个具有相同sessionId的条目,则我只想要数据框中的最新条目(最长的时间)。

我希望数据框具有以下列:

  • “页面”
  • “ stepTimeSpent”
  • “ stepThumbnailHoverCount”
  • “ clickedGivePoints”
  • “ commentsTimeSpent”

“ stepTimeSpent”和“ stepThumbnailHover”列应为整数列表(值)。

我这里真正的问题是试图弄清楚所有这些事情的执行顺序。我不确定将JSON行添加到数据框时可以做什么,以及在创建数据框后(如果有的话)应该做什么。

这里真正的好处是,我想将30gb的JSON数据放入数据帧,因此效率是关键。如果我必须使用较少的数据,那么格式化就更重要。

0 个答案:

没有答案