我正在尝试使用XPath使用Chrome的刮刀扩展程序。我已经能够从桌子上刮掉我需要的所有东西,但是我被困在一个地方。这是源
<td>
<p class="pClass">
<a href="theurl" target="_blank">
<i class="iClass">someText</i>
Anchor text
</a>
</p>
</td>
我正在尝试抓取URL,但在使用我的Xpath代码td[9]/p/a
时,它会抓取显示“someText”的图标部分。有没有办法只获取URL?
答案 0 :(得分:1)
为了提取网址,只需将@href
添加到您的xpath表达式中,这应该有效://td[9]/p/a/@href
。
要剥离空格,可以使用xpath函数normalize-space()。