如何保存每个网址的所有项目

时间:2016-10-13 05:35:09

标签: scrapy

我添加这样的网址列表。当它进入管道时,似乎来自url列表的所有项目都将传递给process_item。

如何根据具体网址分隔项目?例如,将项目从一个URL保存到一个文件。

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

1 个答案:

答案 0 :(得分:0)

在产生之前向项目添加ref_url,然后在管道中检查它。还有其他解决方案,但这是我猜中最直接的解决方案。