Xpath - 排除TD内的元素

时间:2017-04-05 18:57:56

标签: xpath web-scraping

我正在尝试使用XPath使用Chrome的刮刀扩展程序。我已经能够从桌子上刮掉我需要的所有东西,但是我被困在一个地方。这是源

<td>
<p class="pClass">
    <a href="theurl" target="_blank">
        <i class="iClass">someText</i>
    Anchor text
    </a>
</p>
</td>

我正在尝试抓取URL,但在使用我的Xpath代码td[9]/p/a时,它会抓取显示“someText”的图标部分。有没有办法只获取URL?

1 个答案:

答案 0 :(得分:1)

为了提取网址,只需将@href添加到您的xpath表达式中,这应该有效://td[9]/p/a/@href。 要剥离空格,可以使用xpath函数normalize-space()