我想从具有HTML结构
的angel.co网页中提取内容 <meta content="Panjo, Marketplace for enthusiasts, Santa Monica, E-Commerce, Payments, Social Commerce, Forums, jobs, recruiting, hiring" name="description">
所以对于上面的结构我正在使用Xpath
hxs.('//meta/@content').extract()
它会打印与“content”标签相关的所有文本,但我希望它只打印与“description”相关的内容。
答案 0 :(得分:3)
您可以使用谓词仅选择meta
属性为name
的{{1}}代码:
'description'
以下是XPath语法的教程:http://www.w3schools.com/xpath/xpath_syntax.asp