标签: python web-scraping scrapy
我正在考虑将scrapy变成自定义的实时爬虫。与其提供start_urls,我不希望Spider无限运行并异步使用RabbitMQ队列中的消息。我知道这里有scrapy-rabbitmq,但是它以阻塞的方式运行。我希望Spider异步执行所有操作(包括在项目管道中写入数据库)。那会有多困难?我的灵感来自StormCralwer。