The official tutorial指定了如何在python脚本中调用scrapy的方法
通过更改以下设置属性:
settings.overrides['FEED_URI'] = output_path
settings.overrides['FEED_FORMAT'] = 'json'
我可以将数据存储在json文件中。
但是,我正在尝试处理并返回在我定义的函数内立即抓取的数据。因此,其他函数可以调用此包装函数以废弃某些网站。
我认为必须有一些我可以用FEED_URI
玩的设置,但我不确定。任何建议都将深深感激!
答案 0 :(得分:2)
Feed导出旨在序列化您已抓取的数据(请参阅feed export documentation)。你要做的事情并不涉及序列化。
您要做的是创建pipeline。 Scrapy会将已抓取的Items
传递给管道。它们是字典,你可以随心所欲地做任何事情。