我完全是python和scrapy的新手。我正在尝试创建一个抓取器,它将首先抓取URL,获取所有要抓取的URL,然后将URL值一个接另一个地抓取,然后再抓取实际所需的数据。
到目前为止,我有两个单独的蜘蛛抓取值并将其保存到文本文件中。然后,第二个Spider抓取来自文本文件的URL。
但是,有没有办法让第一个蜘蛛调用第二个蜘蛛并一个接一个地提供URL,而不是将其存储在外部文件中并在URL提取结束后手动触发它?
对此将提供任何帮助。
答案 0 :(得分:0)
您描述了Scrapy CrawlSpider的确切行为,在其中您指定了URL提取规则和内容解析方法。查看一些类似this one的示例来学习基础知识,它应该会有所帮助。