我添加这样的网址列表。当它进入管道时,似乎来自url列表的所有项目都将传递给process_item。
如何根据具体网址分隔项目?例如,将项目从一个URL保存到一个文件。
class MySpider(scrapy.Spider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = [
'http://www.example.com/1.html',
'http://www.example.com/2.html',
'http://www.example.com/3.html',
]
答案 0 :(得分:0)
在产生之前向项目添加ref_url,然后在管道中检查它。还有其他解决方案,但这是我猜中最直接的解决方案。