Scrapy的动态内容

时间:2016-11-22 04:03:38

标签: python web-scraping scrapy

我们可以使用Scrapy从javascript加载的网页获取内容吗?

我试图从this页面中删除使用示例 但是因为它们是使用javascript作为Jason对象加载的,所以我无法让它们成为Scrapy。

您能否建议处理此类问题的最佳方法是什么?

1 个答案:

答案 0 :(得分:3)

打开浏览器的开发人员工具,然后查看“网络”标签。如果您点击该页面上的“下一步”按钮,它将发出一个新请求:

examples.json

删除JSONP参数后,URL非常简单:

https://corpus.vocabulary.com/api/1.0/examples.json?query=unalienable&maxResults=24&startOffset=24&filter=0

通过发出最少数量的请求,你的蜘蛛会很快。

如果您想模拟完整的浏览器并执行JavaScript,可以使用Selenium或Scrapinghub's Splash(以及相应的Scrapy plugin)。