在scrapy框架python中解析JSON响应的最佳方法

时间:2013-04-08 19:33:17

标签: python json parsing request scrapy

我需要废弃2个返回巨大JSON(1.2MB)并使用JSON + JavaScript构建HTML的网站。我想知道什么是最好的方法?

  1. 使用selenium呈现JS并scrapy HTML

    | - >不是我的最爱。绩效问题。

  2. 在蜘蛛本身解析JSON并创建项目。

    | - >在这种情况下,你们推荐哪个图书馆?

    | - >这可扩展吗?由于它将限制域请求。

  3. 将JSON本身保存到项目并构建管道以创建项目。

  4. 将JSON保存到NoSQL或队列,并使用其他脚本创建项目。

  5. 谢谢大家。

1 个答案:

答案 0 :(得分:1)

与大多数事情一样,这取决于您的目标。如果你想要最忠实的html渲染,那么你很难在selenium或其他一些可以执行javascript的程序化web客户端中做到这一点。

如果您只对JSON对象感兴趣,可能需要考虑使用scrapy或自定义请求来获取JSON,然后使用python的标准json module来解释它。

该模块可以非常方便地将JSON转换为dicts,并且使用回调函数可以很容易地将这些dicts自动转换为其他python对象。

不幸的是,我不确定这种方法的可扩展性。   这是你必须进一步调查的事情。