Question

我添加这样的网址列表。当它进入管道时，似乎来自url列表的所有项目都将传递给process_item。

如何根据具体网址分隔项目？例如，将项目从一个URL保存到一个文件。

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

Answer 1

在产生之前向项目添加ref_url，然后在管道中检查它。还有其他解决方案，但这是我猜中最直接的解决方案。

如何保存每个网址的所有项目

1 个答案: