我对这种格式的抓取网站非常满意: Stsrt页面>页面1>页面2>我要抓取的页面
但是当涉及到每个页面都有许多我要抓取的页面的链接的网站时,我有些困惑。
我认为我需要首先爬网并刮擦我需要的所有链接,为此: 第1页,抓取所有链接,请转到第2页>第2页,抓取所有链接,请转到第3页* X重复页面数*>然后,一旦所有链接建立,请跟随并抓取我想要的数据。
做到这一点的最佳方法是使用一个函数来创建链接列表,然后将其传递给一个对它们进行迭代并抓取数据的函数吗?
答案 0 :(得分:1)
如果每个链接的抓取数据都相同,则可以。
您会得到这样的东西:
for link in links:
scrape_date(link)
其中links
是列表,其中包含您之前抓取的所有页面上的所有链接。
您还可以同时从每个页面上找到的所有链接中抓取数据。像这样:
for page in pages:
urls = scrape_urls(page)
data = scrape_date(urls)
其中pages
是所有页面(页面1,页面2,页面3等)的列表。