我正在尝试使用Google Chrome扩展程序webscraper.io来抓取网站的表格。在扩展的教程中,记录了如何使用不同的页面刮取网站,例如,"第1页","第2页"和"第3页"其中每个页面都直接链接在主页面上。
然而,在website I am trying to scrape的示例中,只有一个" next"按钮访问下一个站点。如果我按照教程中的步骤操作,并为" next"创建一个链接。页面,它只会考虑第1页和第2页。创建一个" next"每个页面的链接都不可行,因为它们太多了。如何让webscraper包含所有页面?有没有办法使用webscraper扩展程序遍历页面?
我知道这可能重复:pagination Chrome web scraper。但是,它并没有得到很好的回应,也没有任何有用的答案。
答案 0 :(得分:4)
遵循高级文档here,通过制作"分页"来解决问题。链接自己的父母。然后,抓取软件将递归地遍历所有页面和他们的" next"页。用他们的话说,
要从所有分页链接中提取项目,包括在开头不可见的链接,您需要创建另一个选择分页链接的链接选择器。图2显示了如何在站点地图中创建链接选择器。当刮刀打开类别链接时,它将提取页面中可用的项目。之后它会找到分页链接并访问那些。如果分页链接选择器成为自己的子项,它将递归地发现所有分页页面。