应用错误收集

我正在编写一个简单的Web搜寻器，具有抓取功能，可以捕获来自两个不同网站的数据。您可以找到我所有的文件here。

基本上我有一个models.h5文件：

main.py

这是我的两个蜘蛛的管道：

#!/usr/bin/env python
import scrapy
from app.spiders.spider_maquinas import VultrSpider, DigitalOceanSpider
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

class Main():
    def __init__(self):
        settings = get_project_settings()
        process = CrawlerProcess(settings)
        process.crawl(VultrSpider())
        process.crawl(DigitalOceanSpider())
        process.start()

if __name__ == '__main__':
    main = Main()

但是第二个蜘蛛会覆盖第一个值。我需要编写新的Pipelines手动更改此设置，以现在覆盖数据，或者有简单的方法吗？谢谢！

如何自定义ItemExporter以不覆盖Scrapy上的输出文件

0 个答案: