Question

这就是我的蜘蛛的设置方式

class CustomSpider(CrawlSpider):
    name = 'custombot'
    allowed_domains = ['www.domain.com']
    start_urls = ['http://www.domain.com/some-url']
    rules = ( 
              Rule(SgmlLinkExtractor(allow=r'.*?something/'), callback='do_stuff', follow=True),
            )

    def start_requests(self):
        return Request('http://www.domain.com/some-other-url', callback=self.do_something_else)

它转到/ some-other-url但不是/ some-url。这有什么不对？ start_urls中指定的url是需要通过规则过滤器提取和发送的链接的url，其中start_requests中的url直接发送到项目解析器，因此不需要通过规则过滤器。

Answer 1

从documentation for start_requests开始，覆盖start_requests表示忽略start_urls中定义的网址。

当蜘蛛被打开时，这是Scrapy调用的方法   在没有指定特定URL时进行抓取。如果是特定的URL   如果指定，则使用make_requests_from_url（）来创建   请求。
  [...]
  如果要更改用于开始抓取域的请求，则这是要覆盖的方法。

如果您想从/ some-url中删除，请删除start_requests。如果你想从两者中删除，那么将/ some-url添加到start_urls列表。

Scrapy：使用start_requests（）的正确方法是什么？

1 个答案: