有谁知道如何在不同的网站上运行相同的Scrapy刮刀超过200次,每个网站都有各自的输出文件?通常在Scrapy中,通过键入-o filename.json.
答案 0 :(得分:1)
多种方式:
Create a pipeline
删除包含可配置参数的项目,例如运行scrapy crawl myspider -a output_filename=output_file.txt
。 output_filename作为参数添加到蜘蛛中,现在您可以从以下管道访问它:
class MyPipeline(object):
def process_item(self, item, spider):
filename = spider.output_filename
# now do your magic with filename
您可以run scrapy within a python script,然后使用输出项目执行您的操作。
答案 1 :(得分:0)
我做了类似的事情。这就是我所做的:
scrapyd
以运行您的蜘蛛我已经使用上述策略来削减200万个域名,我在不到5天的时间内完成了这项工作。