Question

The official tutorial指定了如何在python脚本中调用scrapy的方法

通过更改以下设置属性：

settings.overrides['FEED_URI'] = output_path
settings.overrides['FEED_FORMAT'] = 'json'

我可以将数据存储在json文件中。

但是，我正在尝试处理并返回在我定义的函数内立即抓取的数据。因此，其他函数可以调用此包装函数以废弃某些网站。

我认为必须有一些我可以用FEED_URI玩的设置，但我不确定。任何建议都将深深感激！

Answer 1

Feed导出旨在序列化您已抓取的数据（请参阅feed export documentation）。你要做的事情并不涉及序列化。

您要做的是创建pipeline。 Scrapy会将已抓取的Items传递给管道。它们是字典，你可以随心所欲地做任何事情。