Question

当我进行爬网时，我通常在使用python解析之前使用脚本。因为这允许获得可以容易地构造和解析的JSON。

 >>> import requests
 >>> r = requests.get('~.json')
 >>> r.json()

但是，遇到此页面https://www.eiganetflix.jp/%E3%82%BF%E3%82%A4%E3%83%97/tv-%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA

似乎没有互动来调用JSON来显示页面上的材料。并且很难找到分页javascript函数。（实际上，有，但我的意思是它似乎很难执行。）

在这种情况下，我如何利用现有的requests和json方法？或者有没有简单的方法来抓取这个？

Answer 1

如果我理解正确，您想要抓取没有JSON响应的网页。检查以确保该网站没有允许您获取JSON数据的API。或者甚至任何其他结构化数据（如XML）也会有所帮助。如果没有办法，你将不得不屏幕刮，这不是最简单的方法。检查scrapy这是执行此操作的框架，或者您可以使用像beautifulsoup这样的库来获取自定义解决方案。

如果页面使用Javascript，您将需要在页面上运行它以获取内容和浏览页面。您可以spynner或Selenium来做。

python爬行请求获取json

1 个答案: