如何在scrapy中为HTML文件编写XPath?

时间:2013-08-01 18:03:27

标签: html xpath scrapy

我想从具有HTML结构

的angel.co网页中提取内容
 <meta content="Panjo, Marketplace for enthusiasts, Santa Monica, E-Commerce, Payments, Social Commerce, Forums, jobs, recruiting, hiring" name="description">

所以对于上面的结构我正在使用Xpath

    hxs.('//meta/@content').extract()

它会打印与“content”标签相关的所有文本,但我希望它只打印与“description”相关的内容。

1 个答案:

答案 0 :(得分:3)

您可以使用谓词仅选择meta属性为name的{​​{1}}代码:

'description'

以下是XPath语法的教程:http://www.w3schools.com/xpath/xpath_syntax.asp