应用错误收集

Chrome扩展程序webscraper.io - 分页如何与选择＆＃34; next＆＃34;

时间：2017-01-12 10:41:52

标签： google-chrome pagination web-scraping

我正在尝试使用Google Chrome扩展程序webscraper.io来抓取网站的表格。在扩展的教程中，记录了如何使用不同的页面刮取网站，例如，＆＃34;第1页＆＃34;，＆＃34;第2页＆＃34;和＆＃34;第3页＆＃34;其中每个页面都直接链接在主页面上。

然而，在website I am trying to scrape的示例中，只有一个＆＃34; next＆＃34;按钮访问下一个站点。如果我按照教程中的步骤操作，并为＆＃34; next＆＃34;创建一个链接。页面，它只会考虑第1页和第2页。创建一个＆＃34; next＆＃34;每个页面的链接都不可行，因为它们太多了。如何让webscraper包含所有页面？有没有办法使用webscraper扩展程序遍历页面？

我知道这可能重复：pagination Chrome web scraper。但是，它并没有得到很好的回应，也没有任何有用的答案。

1 个答案:

答案 0 :(得分：4)

遵循高级文档here，通过制作＆＃34;分页＆＃34;来解决问题。链接自己的父母。然后，抓取软件将递归地遍历所有页面和他们的＆＃34; next＆＃34;页。用他们的话说，

要从所有分页链接中提取项目，包括在开头不可见的链接，您需要创建另一个选择分页链接的链接选择器。图2显示了如何在站点地图中创建链接选择器。当刮刀打开类别链接时，它将提取页面中可用的项目。之后它会找到分页链接并访问那些。如果分页链接选择器成为自己的子项，它将递归地发现所有分页页面。