Scrapy编写未知深度的XPath表达式

时间:2015-06-02 08:41:21

标签: html xpath web-scraping scrapy

我有一个html文件,如:

<div id='author'> 
   <div>
      <div>
         ...

             <a> John Doe </a>

我不知道作者div下会有多少div。对于不同的页面,它可能有不同的深度。

那么这种xml的XPath表达式是什么?

顺便说一句,我试过了:

//div[@id = "author"]/*/a/text()

但这似乎只适用于作者div的孙子。

1 个答案:

答案 0 :(得分:4)

使用双斜杠在a元素内的div元素内找到id="author"元素:

//div[@id = "author"]//a/text()