Question

我对这种格式的抓取网站非常满意： Stsrt页面>页面1>页面2>我要抓取的页面

但是当涉及到每个页面都有许多我要抓取的页面的链接的网站时，我有些困惑。

我认为我需要首先爬网并刮擦我需要的所有链接，为此：第1页，抓取所有链接，请转到第2页>第2页，抓取所有链接，请转到第3页* X重复页面数*>然后，一旦所有链接建立，请跟随并抓取我想要的数据。

做到这一点的最佳方法是使用一个函数来创建链接列表，然后将其传递给一个对它们进行迭代并抓取数据的函数吗？

Answer 1

如果每个链接的抓取数据都相同，则可以。

您会得到这样的东西：

for link in links:
    scrape_date(link)

其中links是列表，其中包含您之前抓取的所有页面上的所有链接。

您还可以同时从每个页面上找到的所有链接中抓取数据。像这样：

for page in pages:
    urls = scrape_urls(page)
    data = scrape_date(urls)

其中pages是所有页面（页面1，页面2，页面3等）的列表。