这就是我的蜘蛛的设置方式
class CustomSpider(CrawlSpider):
name = 'custombot'
allowed_domains = ['www.domain.com']
start_urls = ['http://www.domain.com/some-url']
rules = (
Rule(SgmlLinkExtractor(allow=r'.*?something/'), callback='do_stuff', follow=True),
)
def start_requests(self):
return Request('http://www.domain.com/some-other-url', callback=self.do_something_else)
它转到/ some-other-url但不是/ some-url。这有什么不对? start_urls中指定的url是需要通过规则过滤器提取和发送的链接的url,其中start_requests中的url直接发送到项目解析器,因此不需要通过规则过滤器。
答案 0 :(得分:9)
从documentation for start_requests
开始,覆盖start_requests
表示忽略start_urls
中定义的网址。
当蜘蛛被打开时,这是Scrapy调用的方法 在没有指定特定URL时进行抓取。如果是特定的URL 如果指定,则使用make_requests_from_url()来创建 请求。
[...]
如果要更改用于开始抓取域的请求,则这是要覆盖的方法。
如果您想从/ some-url中删除,请删除start_requests
。如果你想从两者中删除,那么将/ some-url添加到start_urls
列表。