从HTML网页读取URL并将其写入文件

时间:2014-03-18 15:03:58

标签: java html url arraylist webpage

我想创建一个简单的程序,它只读取用户指定的网页源代码中<a>标签中包含的URL。由于我是Java新手,所以非常感谢任何帮助。这是我到目前为止所做的,但这只是将整个网页添加到文件...

import javax.swing.*;
import java.net.*;
import java.io.*;

public class siteReader {
  public static void main(String[] args) throws Exception {
    URL address = new URL(JOptionPane.showInputDialog("Input a webpage address:"));  
    BufferedReader in = new BufferedReader(new InputStreamReader(address.openStream()));
  }
}

1 个答案:

答案 0 :(得分:2)

Jsoup可以使用以下内容执行您想要的操作:

Document doc = Jsoup.connect(address).get();
Elements links = doc.select("a");