如何仅遍历站点的某些区域?基本上停留在某些页面内?

时间:2019-04-23 13:47:37

标签: python beautifulsoup scrapy

我正在使用scrapy / spyder以及我的BeautifulSoup来构建我的抓取工具。.我一直在研究抓取工具,并认为我们现在可以在我们抓取的几个单独页面上正常工作,所以我的下一个挑战是抓取同一网站,但只能抓取特定于高级类别的页面。

我尝试过的唯一方法是使用allowed_domain和start_urls,但是当我这样做时,它实际上击中了所找到的每个页面,并且我们希望控制要抓取的页面,因此我们拥有一个完整的信息列表。

我了解每个页面上都有一些链接,这些链接可以将您带到您所在的页面之外,并且可以在网站上的其他地方结束。.但是,我试图做的只是仅关注每个类别中的几个页面

#    allowed_domain = ['dickssportinggoods.com']
#    start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']

1 个答案:

答案 0 :(得分:1)

您可以将Spider基于Spider类并自己编写导航代码,也可以基于CrawlSpider类并使用规则来控制访问哪些页面。从您提供的信息看来,后一种方法更适合您的要求。查看example,了解规则的工作原理。