我的任务是扫描网站源代码的内容,并使用分隔符从网站中提取所有超链接并显示它们。经过一些环顾四周,这是我到目前为止所做的:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Scanner;
public class HyperlinkMain {
public static void main(String[] args) {
try {
Scanner in = new Scanner (System.in);
String URL = in.next();
URL website = new URL(URL);
BufferedReader input = new BufferedReader(new InputStreamReader(website.openStream()));
String inputLine;
while ((inputLine = input.readLine()) != null) {
// Process each line.
System.out.println(inputLine);
}
in.close();
} catch (MalformedURLException me) {
System.out.println(me);
} catch (IOException ioe) {
System.out.println(ioe);
}
}
}
所以我的程序可以从网站的源代码中提取每一行并显示它,但实际上我希望它从源代码而不是每一行中提取每个WORD。我真的不知道它是如何完成的,因为我在使用input.read();