解析100mb JSON有效负载的有效方法

时间:2012-12-21 16:37:14

标签: ruby json amazon-web-services

我每12小时在我的亚马逊EC2微型实例上运行一个cron作业。它下载118MB文件并使用json库解析它。这当然会使实例耗尽内存。我的实例有416MB的内存空闲,但后来我运行它下降到6 MB的脚本然后它被操作系统杀死。

我想知道我的选择是什么?是否有可能通过Ruby有效地解析这个问题,还是我必须下载到像C这样的低级别的东西?我可以获得一个更强大的亚马逊实例,但我真的想知道是否可以通过Ruby实现这一点。

更新 我看过yajl。它可以在解析时为你提供json对象,但问题是,如果你的JSON文件只包含1个根对象,那么它将被强制解析所有文件。我的JSON看起来像这样:

--Root
   -Obj 1
   -Obj 2
   -Obj 3

所以,如果我这样做:

parser.parse(file) do |hash|
  #do something here
end

由于我只有一个根对象,它将解析整个JSON。如果Obj 1/2/3是root,那么它会工作,因为它会逐个给我它们,但我的JSON不是那样的,它会解析并吃掉500mb的内存......

更新#2: 这是大型118mb文件(7mb)的较小版本:

GONE

它是可解析的,我不只是从文件中删除一些字节,只是让你看到它作为一个整体。我正在寻找的数组是

events = json['resultsPage']['results']['event']

由于

2 个答案:

答案 0 :(得分:6)

YAJL实现了一个流解析器。您可以使用它来实时读取JSON,因此您可以在内容进入时对其进行操作,然后在完成后将其丢弃(以及生成的数据结构)。如果你对它很聪明,这会让你在你的记忆极限之下。

编辑:使用您的数据,您真的有兴趣一次提取部分JSON对象,而不是解析整个对象。这非常棘手,实际上需要您实现自己的解析器。它的基本要素是你想要的:

  1. 进入事件数组
  2. 对于数组中的每个事件,解析事件
  3. 将解析后的事件传递给某些回调函数
  4. 将已解析的事件和源输入丢弃以释放下一个事件的内存。
  5. 这对yajl不起作用,因为你在这里处理一个对象,而不是多个对象。要使它与yajl一起使用,您需要手动解析JSON以发现事件对象边界,然后将每个事件对象块传递给JSON解析器以进行反序列化。像Ragel这样的东西可以为你简化这个过程。

    当然,升级您的AWS实例会更容易。

答案 1 :(得分:0)

yaji之类的东西可以将json解析为流