我正在使用jsoup进行网页的递归爬网。我有这样的链接
sudo shutdown now -h
与第三个链接一样,我没有问题。当您看到第一个和第二个时,将在同一页面中显示导航。锚定标签,第二个我得到了相同的父URL,第二个得到了同一个parenturl#top。我不希望获取此类链接。可以让我知道如何避免在jsoup中获取此类链接
答案 0 :(得分:0)
您应该可以使用以下内容:
doc.select("a[href~=^[^#]")
这将[attr~=regex]
selector syntax与正则表达式一起使用,该正则表达式仅匹配不以#
开头的字符串。