python爬行请求获取json

时间:2017-11-08 11:31:09

标签: python json web-crawler python-requests

当我进行爬网时,我通常在使用python解析之前使用脚本。因为这允许获得可以容易地构造和解析的JSON。

 >>> import requests
 >>> r = requests.get('~.json')
 >>> r.json()

但是,遇到此页面https://www.eiganetflix.jp/%E3%82%BF%E3%82%A4%E3%83%97/tv-%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA

似乎没有互动来调用JSON来显示页面上的材料。 并且很难找到分页javascript函数。 (实际上,有,但我的意思是它似乎很难执行。)

在这种情况下,我如何利用现有的requestsjson方法? 或者有没有简单的方法来抓取这个?

1 个答案:

答案 0 :(得分:1)

如果我理解正确,您想要抓取没有JSON响应的网页。检查以确保该网站没有允许您获取JSON数据的API。或者甚至任何其他结构化数据(如XML)也会有所帮助。如果没有办法,你将不得不屏幕刮,这不是最简单的方法。检查scrapy这是执行此操作的框架,或者您可以使用像beautifulsoup这样的库来获取自定义解决方案。

如果页面使用Javascript,您将需要在页面上运行它以获取内容和浏览页面。您可以spynner或Selenium来做。