我试图仅从页面中提取一组URL,但是我的输出包含一些我想忽略的不需要的URL。
以下是用于提取所有URL的表达式:
//div[contains(@id,'internal_trc_')]/div/a[2]/@href
我没有运气尝试过
//div[contains(@id,'internal_trc_')]/div/a[2]/@href[not(contains(text(), 'domain.com'))]
答案 0 :(得分:1)
更改
@href[not(contains(text(), 'domain.com'))]
到
@href[not(contains(., 'domain.com'))]
因为属性没有文本节点子代,但它们确实具有字符串值。