Python / Scrapy / - 从Arstechnica刮痧

时间:2017-07-21 10:30:17

标签: python selenium scrapy phantomjs

我试图使用Python,scrapy,selenium和phantomjs从页面https://arstechnica.com/中删除内容。我的程序使用给定的参数搜索网站,并提取具有给定关键字的文章的所有链接。问题是可能会有这么多的文章,以便它们在1页中显示出来(例如,当搜索heartbleed https://arstechnica.com/search/?ie=UTF-8&q=heartbleed时)。我的程序现在应该加载第二页并继续提取文章的链接,并重复该过程,直到没有剩余的页面。问题是,我不知道如何实现它。我愿意接受建议!

注意:
- 没有下一页按钮
- 点击一个新站点(在站点底部的索引上)不会生成新的URL,所以我不能告诉scrapy打开一个新页面

1 个答案:

答案 0 :(得分:1)

快速查看Chrome开发者工具/网络标签,似乎通过https://www.googleapis.com/customsearch/v1element调用Google API自定义搜索来提供结果,该结果以JSON格式返回结果。您可以看到已传递的网址参数,并且基本上将其用于start_urls