Scrapy管理动态蜘蛛

时间:2013-07-02 09:17:48

标签: web-scraping scrapy scrapyd

我正在构建一个项目,我需要一个抓取不同网页列表的网络抓取工具。此列表可以随时更改。如何最好地用scrapy实现?我应该为所有网站创建一个蜘蛛还是动态创建蜘蛛?

我已经阅读了scrapyd,我想动态创建蜘蛛是最好的方法。我需要一个关于如何实现它的提示。

1 个答案:

答案 0 :(得分:1)

如果解析逻辑相同,那么有两种方法,

  1. 对于大量网页,您可以创建一个列表并在开始时读取该列表,可以在 start_requests 方法或构造函数中将该列表分配给 start_urls
  2. 您可以通过命令行参数将网页链接作为参数传递给蜘蛛,同样在requests_method或构造函数中,您可以访问此参数并将其分配给 start_urls
  3. 在scrapy中传递参数

        scrapy crawl spider_name -a start_url=your_url
    

    在scrapyd中使用-d

    替换-a