我正在尝试将网页的HTML链接存储在一个集合中。 (因为套装不允许重复的字符串?)
然后从这些链接中解析HTML
然后将解析后的链接存储在另一个集合中。
到目前为止,我所得到的只是:
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Matrix_(mathematics)").get();
Elements links = doc.select("body a");
System.out.println(links);
答案 0 :(得分:0)
您可以使用
遍历links
中的元素
for (Element e : links) {
// called for every element, add them to a set if you wish
}
答案 1 :(得分:0)
由于Elements
类实现了接口java.util.List<E>
,因此可以轻松地将链接集合转换为不重复的集合。
这应该有效:
Set<Element> linkSet = new HashSet<Element>(links);
参考文献:
JavaDocs HashSet
- java.util.HashSet
Jsoup文档Elements
- org.jsoup.select.Elements