应用错误收集

Python / Scrapy / - 从Arstechnica刮痧

时间：2017-07-21 10:30:17

标签： python selenium scrapy phantomjs

我试图使用Python，scrapy，selenium和phantomjs从页面https://arstechnica.com/中删除内容。我的程序使用给定的参数搜索网站，并提取具有给定关键字的文章的所有链接。问题是可能会有这么多的文章，以便它们在1页中显示出来（例如，当搜索heartbleed https://arstechnica.com/search/?ie=UTF-8&q=heartbleed时）。我的程序现在应该加载第二页并继续提取文章的链接，并重复该过程，直到没有剩余的页面。问题是，我不知道如何实现它。我愿意接受建议！

注意：
- 没有下一页按钮
- 点击一个新站点（在站点底部的索引上）不会生成新的URL，所以我不能告诉scrapy打开一个新页面

1 个答案:

答案 0 :(得分：1)

快速查看Chrome开发者工具/网络标签，似乎通过https://www.googleapis.com/customsearch/v1element调用Google API自定义搜索来提供结果，该结果以JSON格式返回结果。您可以看到已传递的网址参数，并且基本上将其用于start_urls。