我正在编写一个简单的Web搜寻器,具有抓取功能,可以捕获来自两个不同网站的数据。您可以找到我所有的文件here。
基本上我有一个models.h5
文件:
main.py
这是我的两个蜘蛛的管道:
#!/usr/bin/env python
import scrapy
from app.spiders.spider_maquinas import VultrSpider, DigitalOceanSpider
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
class Main():
def __init__(self):
settings = get_project_settings()
process = CrawlerProcess(settings)
process.crawl(VultrSpider())
process.crawl(DigitalOceanSpider())
process.start()
if __name__ == '__main__':
main = Main()
但是第二个蜘蛛会覆盖第一个值。我需要编写新的Pipelines手动更改此设置,以现在覆盖数据,或者有简单的方法吗?谢谢!