我们可以使用Scrapy从javascript加载的网页获取内容吗?
我试图从this页面中删除使用示例 但是因为它们是使用javascript作为Jason对象加载的,所以我无法让它们成为Scrapy。
您能否建议处理此类问题的最佳方法是什么?
答案 0 :(得分:3)
打开浏览器的开发人员工具,然后查看“网络”标签。如果您点击该页面上的“下一步”按钮,它将发出一个新请求:
删除JSONP参数后,URL非常简单:
https://corpus.vocabulary.com/api/1.0/examples.json?query=unalienable&maxResults=24&startOffset=24&filter=0
通过发出最少数量的请求,你的蜘蛛会很快。
如果您想模拟完整的浏览器并执行JavaScript,可以使用Selenium或Scrapinghub's Splash(以及相应的Scrapy plugin)。