避免链接导航到同一页面

时间:2018-09-13 11:58:32

标签: java jsoup

我正在使用jsoup进行网页的递归爬网。我有这样的链接

sudo shutdown now -h

与第三个链接一样,我没有问题。当您看到第一个和第二个时,将在同一页面中显示导航。锚定标签,第二个我得到了相同的父URL,第二个得到了同一个parenturl#top。我不希望获取此类链接。可以让我知道如何避免在jsoup中获取此类链接

1 个答案:

答案 0 :(得分:0)

您应该可以使用以下内容:

doc.select("a[href~=^[^#]")

这将[attr~=regex] selector syntax与正则表达式一起使用,该正则表达式仅匹配不以#开头的字符串。