让Scrapy蜘蛛在SQS队列(或其他队列)上侦听要搜寻的新种子URL的方法是什么?
在文档中找不到任何示例,以为有人可能在这里知道。
谢谢。
编辑:
这start_requests
也许对吗?
class MySpider(scrapy.Spider):
name = 'example.com'
allowed_domains = ['example.com']
def start_requests(self):
# read requests from queue here?
while True:
url = self._queue.get_url()
yield scrapy.Request(url, self.parse)
答案 0 :(得分:0)
重新实现Spider.start_requests()
是动态产生供蜘蛛处理的请求的正确方法,无论这些请求来自何处(动态队列,本地文件等)。
Scrapy tutorial涵盖了这一点:)