Question

我的任务是扫描网站源代码的内容，并使用分隔符从网站中提取所有超链接并显示它们。经过一些环顾四周，这是我到目前为止所做的：

    import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Scanner;

    public class HyperlinkMain {
public static void main(String[] args) {
    try {
        Scanner in = new Scanner (System.in);
        String URL = in.next();

        URL website = new URL(URL);
        BufferedReader input = new BufferedReader(new InputStreamReader(website.openStream()));
        String inputLine; 

        while ((inputLine = input.readLine()) != null) {
            // Process each line.
            System.out.println(inputLine);
        }
        in.close(); 

    } catch (MalformedURLException me) {
        System.out.println(me); 

    } catch (IOException ioe) {
        System.out.println(ioe);
    }
}

}

所以我的程序可以从网站的源代码中提取每一行并显示它，但实际上我希望它从源代码而不是每一行中提取每个WORD。我真的不知道它是如何完成的，因为我在使用input.read();

时不断出现错误

Answer 1

有很多源代码可以检索网页。查看Pattern类，了解如何为超链接提取正则表达式文本。通过与网页下载分开处理超链接提取，您可以将作业分配视为两个独立的问题。

扫描并显示网站源代码Java中的每个单词

1 个答案: