Scrapy - 从脚本调用scrapy时,如何立即将字典返回到进程,而不是导出到json文件

时间:2015-04-01 22:13:40

标签: python json scrapy

The official tutorial指定了如何在python脚本中调用scrapy的方法

通过更改以下设置属性:

settings.overrides['FEED_URI'] = output_path
settings.overrides['FEED_FORMAT'] = 'json'

我可以将数据存储在json文件中。

但是,我正在尝试处理并返回在我定义的函数内立即抓取的数据。因此,其他函数可以调用此包装函数以废弃某些网站。

我认为必须有一些我可以用FEED_URI玩的设置,但我不确定。任何建议都将深深感激!

1 个答案:

答案 0 :(得分:2)

Feed导出旨在序列化您已抓取的数据(请参阅feed export documentation)。你要做的事情并不涉及序列化。

您要做的是创建pipeline。 Scrapy会将已抓取的Items传递给管道。它们是字典,你可以随心所欲地做任何事情。