输入start_requests的URL值以从另一只蜘蛛抓取

时间:2019-03-07 09:24:42

标签: python python-3.x scrapy

我完全是python和scrapy的新手。我正在尝试创建一个抓取器,它将首先抓取URL,获取所有要抓取的URL,然后将URL值一个接另一个地抓取,然后再抓取实际所需的数据。

到目前为止,我有两个单独的蜘蛛抓取值并将其保存到文本文件中。然后,第二个Spider抓取来自文本文件的URL。

但是,有没有办法让第一个蜘蛛调用第二个蜘蛛并一个接一个地提供URL,而不是将其存储在外部文件中并在URL提取结束后手动触发它?

对此将提供任何帮助。

1 个答案:

答案 0 :(得分:0)

您描述了Scrapy CrawlSpider的确切行为,在其中您指定了URL提取规则和内容解析方法。查看一些类似this one的示例来学习基础知识,它应该会有所帮助。