应用错误收集

输入start_requests的URL值以从另一只蜘蛛抓取

时间：2019-03-07 09:24:42

标签： python python-3.x scrapy

我完全是python和scrapy的新手。我正在尝试创建一个抓取器，它将首先抓取URL，获取所有要抓取的URL，然后将URL值一个接另一个地抓取，然后再抓取实际所需的数据。

到目前为止，我有两个单独的蜘蛛抓取值并将其保存到文本文件中。然后，第二个Spider抓取来自文本文件的URL。

但是，有没有办法让第一个蜘蛛调用第二个蜘蛛并一个接一个地提供URL，而不是将其存储在外部文件中并在URL提取结束后手动触发它？

对此将提供任何帮助。

1 个答案:

答案 0 :(得分：0)

您描述了Scrapy CrawlSpider的确切行为，在其中您指定了URL提取规则和内容解析方法。查看一些类似this one的示例来学习基础知识，它应该会有所帮助。