扫描并显示网站源代码Java中的每个单词

时间:2014-02-19 16:48:41

标签: java parsing delimiter

我的任务是扫描网站源代码的内容,并使用分隔符从网站中提取所有超链接并显示它们。经过一些环顾四周,这是我到目前为止所做的:

    import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Scanner;

    public class HyperlinkMain {
public static void main(String[] args) {
    try {
        Scanner in = new Scanner (System.in);
        String URL = in.next();

        URL website = new URL(URL);
        BufferedReader input = new BufferedReader(new InputStreamReader(website.openStream()));
        String inputLine; 

        while ((inputLine = input.readLine()) != null) {
            // Process each line.
            System.out.println(inputLine);
        }
        in.close(); 

    } catch (MalformedURLException me) {
        System.out.println(me); 

    } catch (IOException ioe) {
        System.out.println(ioe);
    }
}

}

所以我的程序可以从网站的源代码中提取每一行并显示它,但实际上我希望它从源代码而不是每一行中提取每个WORD。我真的不知道它是如何完成的,因为我在使用input.read();

时不断出现错误

1 个答案:

答案 0 :(得分:1)

有很多源代码可以检索网页。查看Pattern类,了解如何为超链接提取正则表达式文本。通过与网页下载分开处理超链接提取,您可以将作业分配视为两个独立的问题。