XPath:提取所有URL,但包含特定域名的URL

时间:2019-02-09 01:56:56

标签: html xml xpath

我试图仅从页面中提取一组URL,但是我的输出包含一些我想忽略的不需要的URL。

以下是用于提取所有URL的表达式:

//div[contains(@id,'internal_trc_')]/div/a[2]/@href

我没有运气尝试过

//div[contains(@id,'internal_trc_')]/div/a[2]/@href[not(contains(text(), 'domain.com'))]

1 个答案:

答案 0 :(得分:1)

更改

@href[not(contains(text(), 'domain.com'))]

@href[not(contains(., 'domain.com'))]

因为属性没有文本节点子代,但它们确实具有字符串值。