如何强制scrapy使用postgres而不是本地sqllite数据库?

时间:2019-02-25 15:13:03

标签: postgresql web-scraping scrapy

我设置了这一行

MySpider.custom_settings['JOBDIR'] = 'jobs/scrapy

但是现在我的EC2实例空间不足,出现错误:“ [Errno 28]设备上没有剩余空间”

JOBDIR似乎正在跟踪刮scrap蜘蛛已经看到/尚未看到的内容。理想情况下,我将使用Postgres数据库而不是JOBDIR来存储它,有人知道我可以如何传输它吗?

是否可以设置将JOBDIR存储指向Postgres DB中的表而不是该本地sqlite文件的设置?

或者,有没有办法我可以清除一些数据而无需蜘蛛从头开始?

编辑:经过进一步调查,我发现'jobs / scrapy / requests.queue'中名为p0的文件为MASSIVE,4GB。这个文件是做什么用的,为什么这么大?

我有一个类似大小的网站要爬网,找到的URL数量相同,而p0文件只有5MB。我可以删除此p0文件,还是会使蜘蛛从头开始?

0 个答案:

没有答案