使用Scrapy运行Spider时导出为CSV文件

时间:2018-07-12 14:33:38

标签: python csv scrapy pipeline

我正在尝试使用Scrapy将抓取的数据导出到CSV,以便在我的蜘蛛运行时能够使用CSV文件 中的数据。目前,我的抓取工具完成抓取后,只能生成一个填充数据的CSV文件。我当前的管道非常简单:

class ReDataSpiderPipeline(object):

    def open_spider(self, spider):
        self.file = open('stored_RE_data.csv', 'wb')
        self.exporter = CsvItemExporter(self.file)
        self.exporter.start_exporting()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self, spider):
        self.exporter.finish_exporting()
        self.file.close()

我已经阅读过Scrapy文档,但无法弄清楚,但是我想这是使用Scrapy的人们想要他们的管道正常工作的原因,所以我假设我错过了一些简单的东西。我的目标只是能够在蜘蛛仍在运行时开始分析CSV数据,而不必等到蜘蛛完成后再查看数据。

谢谢。

0 个答案:

没有答案