Scrapy-在管道中放置项目字段?

时间:2018-06-26 17:29:39

标签: python web-scraping scrapy

因此,我有一个V1. Person A Coolcool 2018-06-25 19:34 Person B See you later :D 2018-06-25 19:34 Person A You called Person B Duration: 30 seconds 2018-06-25 19:19 Person B. What's up? 2018-06-25 19:09 Person A Hey! 2018-06-25 19:09 所需要的item['html']字段,但是在处理之后,不需要将其存储到具有MyExamplePipeline的数据库中。有没有一种方法可以使字段MongoDBPipeline掉落并保留其余项目?作为将页面html从Spider传递到管道的项目的一部分,它是必需的,但是我不知道如何删除它。我查看了this帖子中提到的使用FEED_EXPORT_FIELDSfields_to_export的帖子,但是问题是我不想使用项目导出器,我只想将项目输入到下一个html。有没有办法在Scrapy中做到这一点?谢谢!

1 个答案:

答案 0 :(得分:1)

您可以轻松地做到这一点。在您的MongoDBPipeline中,您需要执行以下操作

del item['html']

如果这会影响另一个管道中的项目,请使用copy.deepcopy并创建项目对象的副本,然后删除html,然后再插入mongodb