Question

我想从具有HTML结构

的angel.co网页中提取内容

 <meta content="Panjo, Marketplace for enthusiasts, Santa Monica, E-Commerce, Payments, Social Commerce, Forums, jobs, recruiting, hiring" name="description">

所以对于上面的结构我正在使用Xpath

    hxs.('//meta/@content').extract()

它会打印与“content”标签相关的所有文本，但我希望它只打印与“description”相关的内容。

Answer 1

您可以使用谓词仅选择meta属性为name的{{1}}代码：

'description'

以下是XPath语法的教程：http://www.w3schools.com/xpath/xpath_syntax.asp

如何在scrapy中为HTML文件编写XPath？

1 个答案: