Scrapy Spider网页提取

时间:2017-09-07 14:49:42

标签: python web-scraping scrapy scrapy-spider

我试图通过python从网页(https://www.cato.org/research/34/commentary)中提取数据。它包含文章的链接,从特定的文章中我必须提取日期,作者和文章标题。我对所有文章都重复了相同的操作。

我可以从此命令中提取文档标题:

response.css('h1.page-h1::text').extract()

并关注文章链接:

response.css('p.text-large.experts-more-h' > a::attr(href)').extract_first()

但我如何处理所有链接?请帮助我对此不熟悉。

1 个答案:

答案 0 :(得分:1)

待办事项

for art in response.css('p.text-large.experts-more-h' > a'):
  art.css("::attr(href)").extract_first()