使用Apify抓取多个页面

时间:2019-03-19 01:04:19

标签: javascript apify

是否可以使用带有伪URL的Apify来抓取多个页面?

当人们问相同的问题时,大多数答案都指向伪URL,并且在可能/不可能的情况下并没有直接解决这个问题。

如果在运行搜寻器时我不知道伪URL,并且我从页面上抓了10个链接-那么想抓取这10个链接,那怎么办?

https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages

1 个答案:

答案 0 :(得分:3)

简短答案:

是的

长答案:

有两种主要方法可将更多页面添加到爬网队列。

预定结构:

伪URL用于遵循符合特定结构的链接。网站通常会在其使用的URL中使用一些结构。例如:

https://github.com

使用以下结构:

https://github.com/{username}/{repository}

因此,如果您想为用户apifytech抓取所有存储库,则可以使用这样的伪URL:

https://github.com/apifytech/[.+]

您可以在tutorial for Apify SDK中找到有关PseudoURL的更多信息。

在运行时动态添加URL

如果您需要在运行时动态地向爬网队列添加更多链接,则有几个选项。

使用Apify SDK时,您始终可以使用requestQueue.addRequest()函数或utils.enqueueLinks()函数。

使用Apify Web Scraper时,您可以使用context.enqueueRequest()动态添加更多页面。