抓取,抓取链接,然后抓取页面

时间:2018-10-04 17:21:30

标签: python python-3.x web-scraping scrapy

我对这种格式的抓取网站非常满意: Stsrt页面>页面1>页面2>我要抓取的页面

但是当涉及到每个页面都有许多我要抓取的页面的链接的网站时,我有些困惑。

我认为我需要首先爬网并刮擦我需要的所有链接,为此: 第1页,抓取所有链接,请转到第2页>第2页,抓取所有链接,请转到第3页* X重复页面数*>然后,一旦所有链接建立,请跟随并抓取我想要的数据。

做到这一点的最佳方法是使用一个函数来创建链接列表,然后将其传递给一个对它们进行迭代并抓取数据的函数吗?

1 个答案:

答案 0 :(得分:1)

如果每个链接的抓取数据都相同,则可以。

您会得到这样的东西:

for link in links:
    scrape_date(link)

其中links是列表,其中包含您之前抓取的所有页面上的所有链接。

您还可以同时从每个页面上找到的所有链接中抓取数据。像这样:

for page in pages:
    urls = scrape_urls(page)
    data = scrape_date(urls)

其中pages是所有页面(页面1,页面2,页面3等)的列表。