cra的蜘蛛会在队列中侦听种子网址以进行爬网吗?

时间:2019-01-15 08:24:42

标签: scrapy scrapy-spider

让Scrapy蜘蛛在SQS队列(或其他队列)上侦听要搜寻的新种子URL的方法是什么?

在文档中找不到任何示例,以为有人可能在这里知道。

谢谢。

编辑:

start_requests也许对吗?

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']

    def start_requests(self):
        # read requests from queue here?
        while True:
            url = self._queue.get_url()
            yield scrapy.Request(url, self.parse)

1 个答案:

答案 0 :(得分:0)

重新实现Spider.start_requests()是动态产生供蜘蛛处理的请求的正确方法,无论这些请求来自何处(动态队列,本地文件等)。

Scrapy tutorial涵盖了这一点:)