使用分隔符提取超链接 - Java

时间:2014-02-19 18:02:04

标签: java project delimiter

我是java的新手,我正在研究一个扫描网站源代码的项目,并提取其中包含的所有超链接。 到目前为止,我的项目正在运行,以便使用扫描程序(in.next())扫描源代码的每个“单词”。 但是我被告知使用分隔符从中提取超链接,但我几乎找不到任何信息来帮助我使用它们! 有人不能帮我解释分隔符以及如何在这个项目中使用它们?真的很感激。

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Scanner;
import java.util.ArrayList;


public class HyperlinkMain {
public static void main(String[] args) {
    try {
        Scanner in = new Scanner (System.in);
        String URL = in.next();

        URL website = new URL(URL);
        Scanner inWebsite = new Scanner (website.openStream());

        String inputLine; 

        while ((inWebsite.hasNext())) {
            // Process each 'word'.
            System.out.println(inWebsite.next());

        }
        in.close(); 

    } catch (MalformedURLException me) {
        System.out.println(me); 

    } catch (IOException ioe) {
        System.out.println(ioe);
    }
}
}

1 个答案:

答案 0 :(得分:0)

您可以在字符串上使用正则表达式。以下是此主题的现有Stack Overflow。

How to use regular expressions to parse HTML in Java?