我正在为正在处理的网页设置PDF数据库,我需要抓取类似于以下词典列表的网页:
依此类推。我该如何使用scrapy?
import scrapy
class SpiderDoesThings(scrapy.Spider):
name = 'my_name'
start_urls = [my_urls]
def parse(self, response):
for item in response.css(filter1):
link = item.css(filter2)
meta_data = {
'name': item.css(filter3)
}
yield scrapy.Request(url=link, callback=self.parse_additionalinfo, meta=meta_data)
def parse_additionalinfo(self, response):
response.meta.update({'mynewinfo': response.css(filter4)
yield response.meta
该代码仅返回列表的第一个字典:
我尝试添加“ no-filter = True”,它爬网了列表的其余部分,但它一直在爬网相同的附加信息。不过,“名称”,“姓氏”和“更多信息”是正确的。像这样: