我正在尝试使用Scrapy将抓取的数据导出到CSV,以便在我的蜘蛛运行时能够使用CSV文件 中的数据。目前,我的抓取工具完成抓取后,只能生成一个填充数据的CSV文件。我当前的管道非常简单:
class ReDataSpiderPipeline(object):
def open_spider(self, spider):
self.file = open('stored_RE_data.csv', 'wb')
self.exporter = CsvItemExporter(self.file)
self.exporter.start_exporting()
def process_item(self, item, spider):
self.exporter.export_item(item)
return item
def close_spider(self, spider):
self.exporter.finish_exporting()
self.file.close()
我已经阅读过Scrapy文档,但无法弄清楚,但是我想这是使用Scrapy的人们想要他们的管道正常工作的原因,所以我假设我错过了一些简单的东西。我的目标只是能够在蜘蛛仍在运行时开始分析CSV数据,而不必等到蜘蛛完成后再查看数据。
谢谢。