如何自定义ItemExporter以不覆盖Scrapy上的输出文件

时间:2019-05-16 00:03:59

标签: python-3.x scrapy

我正在编写一个简单的Web搜寻器,具有抓取功能,可以捕获来自两个不同网站的数据。您可以找到我所有的文件here

基本上我有一个models.h5文件:

main.py

这是我的两个蜘蛛的管道:

#!/usr/bin/env python
import scrapy
from app.spiders.spider_maquinas import VultrSpider, DigitalOceanSpider
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

class Main():
    def __init__(self):
        settings = get_project_settings()
        process = CrawlerProcess(settings)
        process.crawl(VultrSpider())
        process.crawl(DigitalOceanSpider())
        process.start()

if __name__ == '__main__':
    main = Main()

但是第二个蜘蛛会覆盖第一个值。我需要编写新的Pipelines手动更改此设置,以现在覆盖数据,或者有简单的方法吗?谢谢!

0 个答案:

没有答案