Question

我正在构建一个项目，我需要一个抓取不同网页列表的网络抓取工具。此列表可以随时更改。如何最好地用scrapy实现？我应该为所有网站创建一个蜘蛛还是动态创建蜘蛛？

我已经阅读了scrapyd，我想动态创建蜘蛛是最好的方法。我需要一个关于如何实现它的提示。

Answer 1

如果解析逻辑相同，那么有两种方法，

对于大量网页，您可以创建一个列表并在开始时读取该列表，可以在 start_requests 方法或构造函数中将该列表分配给 start_urls

您可以通过命令行参数将网页链接作为参数传递给蜘蛛，同样在requests_method或构造函数中，您可以访问此参数并将其分配给 start_urls

在scrapy中传递参数

scrapy crawl spider_name -a start_url=your_url

在scrapyd中使用-d
替换-a

Scrapy管理动态蜘蛛

1 个答案: