Question

我正在使用scrapy / spyder以及我的BeautifulSoup来构建我的抓取工具。.我一直在研究抓取工具，并认为我们现在可以在我们抓取的几个单独页面上正常工作，所以我的下一个挑战是抓取同一网站，但只能抓取特定于高级类别的页面。

我尝试过的唯一方法是使用allowed_domain和start_urls，但是当我这样做时，它实际上击中了所找到的每个页面，并且我们希望控制要抓取的页面，因此我们拥有一个完整的信息列表。

我了解每个页面上都有一些链接，这些链接可以将您带到您所在的页面之外，并且可以在网站上的其他地方结束。.但是，我试图做的只是仅关注每个类别中的几个页面

#    allowed_domain = ['dickssportinggoods.com']
#    start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']

Answer 1

您可以将Spider基于Spider类并自己编写导航代码，也可以基于CrawlSpider类并使用规则来控制访问哪些页面。从您提供的信息看来，后一种方法更适合您的要求。查看example，了解规则的工作原理。