如何使用Jsoup将网页的链接存储在一个集合中?

时间:2014-08-06 10:22:47

标签: java jsoup

我正在尝试将网页的HTML链接存储在一个集合中。 (因为套装不允许重复的字符串?)

然后从这些链接中解析HTML

然后将解析后的链接存储在另一个集合中。

到目前为止,我所得到的只是:

    public static void main(String[] args) throws IOException {

    Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Matrix_(mathematics)").get();

    Elements links = doc.select("body a");

    System.out.println(links);

2 个答案:

答案 0 :(得分:0)

您可以使用

遍历links中的元素
for (Element e : links) {
    // called for every element, add them to a set if you wish
}

答案 1 :(得分:0)

由于Elements类实现了接口java.util.List<E>,因此可以轻松地将链接集合转换为不重复的集合。

这应该有效:

Set<Element> linkSet = new HashSet<Element>(links);

参考文献:

JavaDocs HashSet - java.util.HashSet

Jsoup文档Elements - org.jsoup.select.Elements