Jsoup选择不同网站的链接

时间:2015-09-06 21:55:07

标签: java jsoup

我正在使用JSOUP过滤掉html正文中的链接。

对于这样的网页:https://en.wikipedia.org/wiki/Cloud_computing

我想过滤以下链接: https://en.wikipedia.org/wiki/Light

用于散列标记链接en.wikipedia.org/wiki/Cloud_computing#cite_note-1

我尝试doc.select("a[href*=#]").remove();并且它在页面html src中的哈希标记链接很好用:<a href="#cite_ref-1">

但当我使用doc.select("a[href]*=/]").remove();页面html src中的链接

<a href="/wiki/Light">CH</a>  

但仍有链接未过滤。这怎么可能?

1 个答案:

答案 0 :(得分:0)

你有一个错字。

doc.select("a[href]*=/]").remove();

应该是这样的

doc.select("a[href*=/]").remove();

但这会删除包含/的每个链接。 这是您想要的,还是要删除以/开头的每个链接。 在这种情况下,你需要这个

doc.select("a[href^=/]").remove();