xpath在scrapy中表现得很奇怪

时间:2015-05-25 22:16:49

标签: html xpath scrapy

假设我有这段代码:



<div class="page-header" align="center">
<h4>[<a href='browse?q=@section%200DAY' data-placement='top' rel='tooltip' data-original-title='Browse 0DAY'><strong>FIRST</strong></a>] SECOND-</a><a href=/browse?q=@grp%20GUSH rel='tooltip' data-original-title='Find more from GUSH'><b>THIRD</b></a> <h6>FOUR<br> <br/></h6> Search:
<a href="https://xxx1">xxx</a>,
</h4>
<br/>
</div>
&#13;
&#13;
&#13;

我想过滤FIRST,SECOND,THIRD和FOUR文本。我怎么能用XPATH做到这一点?

我已经测试了这个,没有成功:

'//div[@class="page-header"]/h4/text()' (for filter SECOND)
'//div[@class="page-header"]/h4/a[@rel=\'tooltip\']/text()' (for filter THIRD)

1 个答案:

答案 0 :(得分:0)

试试这个:

//div[@class="page-header"]/h4/node/text()[1]

过滤器SECOND和此:

//div[@class="page-header"]/h4/a/b/node/text()[1]

过滤器THIRD

让我知道它是否正常工作。