我正在使用Python Scrapy编写一个网络爬虫,该爬虫可爬过标签目录的多个页面并获取所有标签及其文章。
所以我得到了这种解析方法,其中蜘蛛运行在每个页面上。
list_of_dict
在else部分中,我想为parse_word方法提供获得的标签,但是整个方法仅采用最后一个站点的标签。
有人可以帮助我吗?
答案 0 :(得分:0)
要提出替代解决方案,您可以使用spider middleware进行计数,该计数将存储在请求/响应元字典中。
从计数的责任与从页面中选择元素的责任分开的意义上来说,这有点干净。