Question

我正在抓住第一页所有工作链接的工作网站。现在我从第一页开始存储标题，工作，公司。

但是我也希望存储描述，可以通过单击作业标题获得。我想将它与当前项目一起存储。

这是我的代码

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select("//div[@class='jobenteries']")
    items = []
    for site in sites[:3]:
        print "Hello"
        item = DmozItem()
        item['title'] = site.select('a/text()').extract()
        item['desc'] = ''
        items.append(item)
    return items

但该描述在下一页链接中。我怎么能这样做

Answer 1

从第一页开始，返回第二页的请求，并传递request.meta dict中每个项目的数据。在第二页的回调方法中，您可以读取传递的数据并返回完全填充的项目。

有关详细信息和示例，请参阅scrapy文档中的Passing additional data to callback functions。

如何用scrapy同时发出两个请求

1 个答案: