使用scrapy从metatag中提取关键字

时间:2016-03-26 20:33:23

标签: xpath web-scraping scrapy meta-tags

我试图使用scrapy下载学校项目的一些内容。 我想获得每个页面的关键字列表,然后我可以将其存储在数据库中。这是我到目前为止所做的。

scrapy shell http://news.nationalgeographic.com/2015/03/150318-pitcairn-marine-reserve-protected-area-ocean-conservation/

>>> response.xpath('//title/text()').extract()

[u'World\u2019s Largest Single Marine Reserve Created in Pacific']

>>> response.xpath("//meta[@name='keywords']")[0].extract()

u'<meta name="keywords" content="ocean life, conservationists, marine biodiversity, marine sanctuaries, wildlife conservation, marine protected areas, mpas, reserves, sanctuaries, ocean conservation">'

我想要做的只是从元标记中提取内容,其中name =&#39; keywords&#39;

谢谢!

1 个答案:

答案 0 :(得分:11)

只需添加/@content即可提取content属性:

response.xpath("//meta[@name='keywords']/@content")[0].extract()