我正在抓住第一页所有工作链接的工作网站。 现在我从第一页开始存储标题,工作,公司。
但是我也希望存储描述,可以通过单击作业标题获得。我想将它与当前项目一起存储。
这是我的代码
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select("//div[@class='jobenteries']")
items = []
for site in sites[:3]:
print "Hello"
item = DmozItem()
item['title'] = site.select('a/text()').extract()
item['desc'] = ''
items.append(item)
return items
但该描述在下一页链接中。我怎么能这样做
答案 0 :(得分:3)
从第一页开始,返回第二页的请求,并传递request.meta dict中每个项目的数据。在第二页的回调方法中,您可以读取传递的数据并返回完全填充的项目。
有关详细信息和示例,请参阅scrapy文档中的Passing additional data to callback functions。