Question

我正在尝试将网页的HTML链接存储在一个集合中。（因为套装不允许重复的字符串？）

然后从这些链接中解析HTML

然后将解析后的链接存储在另一个集合中。

到目前为止，我所得到的只是：

    public static void main(String[] args) throws IOException {

    Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Matrix_(mathematics)").get();

    Elements links = doc.select("body a");

    System.out.println(links);

Answer 1

您可以使用

遍历links中的元素

for (Element e : links) {
    // called for every element, add them to a set if you wish
}

Answer 2

由于Elements类实现了接口java.util.List<E>，因此可以轻松地将链接集合转换为不重复的集合。

这应该有效：

Set<Element> linkSet = new HashSet<Element>(links);

参考文献：

JavaDocs HashSet - java.util.HashSet

Jsoup文档Elements - org.jsoup.select.Elements

如何使用Jsoup将网页的链接存储在一个集合中？

2 个答案: