是否可以使用带有伪URL的Apify来抓取多个页面?
当人们问相同的问题时,大多数答案都指向伪URL,并且在可能/不可能的情况下并没有直接解决这个问题。
如果在运行搜寻器时我不知道伪URL,并且我从页面上抓了10个链接-那么想抓取这10个链接,那怎么办?
https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages
答案 0 :(得分:3)
是的
有两种主要方法可将更多页面添加到爬网队列。
伪URL用于遵循符合特定结构的链接。网站通常会在其使用的URL中使用一些结构。例如:
https://github.com
使用以下结构:
https://github.com/{username}/{repository}
因此,如果您想为用户apifytech
抓取所有存储库,则可以使用这样的伪URL:
https://github.com/apifytech/[.+]
您可以在tutorial for Apify SDK中找到有关PseudoURL的更多信息。
如果您需要在运行时动态地向爬网队列添加更多链接,则有几个选项。
使用Apify SDK时,您始终可以使用requestQueue.addRequest()
函数或utils.enqueueLinks()
函数。
使用Apify Web Scraper时,您可以使用context.enqueueRequest()
动态添加更多页面。