URL扫描程序断行

时间:2016-05-02 22:01:54

标签: java url stream

我有一个网站,我想读一些。

我正在使用扫描仪,但在读完全线之前总是断线。

这是我的代码:

URL url = new URL("http://whereisthemonkey.weebly.com/better-mob-ai.html");
        InputStream inputStream = url.openStream();

        Scanner scanner = new Scanner(inputStream, "UTF-8");
        //scanner.useDelimiter("\\n");
        while(scanner.hasNext()){
            String line = scanner.nextLine();
            if(line.startsWith("<meta property=\"og:description\" content=\"I nformation")){
                line = line.replace(" ", "").replace("┬", "").replace("á", "");
                System.out.println(line);
                line = line.substring(line.indexOf("Status:") + 7, line.indexOf("Status:") + 12);

                int latestVersion = Integer.valueOf(line);
                if(latestVersion == 0){
                    scanner.close();
                    inputStream.close();
                    System.err.println("/=============================================================================\\");
                    System.err.println("|[Better MobAI] The developing team of Better MobAI encountered a major error:|");
                    System.err.println("|[Better MobAI] The plugin will be therefore disabled!                        |");  
                    System.err.println("\\============================================================================/");
                    return false;
                }
                if(latestVersion == 1){
                    scanner.close();
                    inputStream.close();
                    return true;
                }
            }
        }
        scanner.close();
        inputStream.close();

有谁知道我做错了什么,因为这是我得到的输出:

<metaproperty="og:description"content="InformationááááááááááááááááCurrentversion:1.9áááááááááááááááááááááááááááááááááááááááá..."/>

谢谢!

1 个答案:

答案 0 :(得分:1)

首先:我从您的网站获取所有HTML内容:

enter image description here

昨天,我发现只有一个“状态”字样。因此,if-statement中的条件不正确,因为startsWith行中的单词不存在您的条件。

今天,(网站更新)我发现了两个“状态”字样。因此,if-statement中的条件是正确的,哪一行包含此单词。您可能会将endIndex更改为line.indexOf("Status:") + 8。另一个“状态”字词将被忽略,因为您的条件latestVersion == __true,然后是return并打破了循环。

但是等等.. 这样对我来说不舒服,因为网站每次都会刷新。所以,你的条件不可能正常工作。

所以,我建议让您为其读取的每一行使用string.contains("Status");。像那样:

public static boolean latestVersion() throws Exception {
    URL url = new URL("http://whereisthemonkey.weebly.com/better-mob-ai.html");
    InputStream inputStream = url.openStream();

    Scanner scanner = new Scanner(inputStream, "UTF-8");
    int numLine = 0;
    while (scanner.hasNext()) {
        String line = scanner.nextLine();
        numLine++;
        String status = "-1"; // equal any number like -1 which Status will never equal it
        if (line.contains("Status")) {
            int indexOfStatus = line.indexOf("Status");
            status = line.substring(indexOfStatus + 7, indexOfStatus + 9);
            System.out.println("line " + numLine + ": contains Status word | Status = " + status);
        }

        // use trim to avoid any spaces
        int latestVersion = Integer.parseInt(status.trim());
        if (latestVersion == 0) {
            scanner.close();
            inputStream.close();
            System.err.println("/=============================================================================\\");
            System.err.println("|[Better MobAI] The developing team of Better MobAI encountered a major error:|");
            System.err.println("|[Better MobAI] The plugin will be therefore disabled! |");
            System.err.println("\\============================================================================/");
            return false;
        }
        if (latestVersion == 1) {
            System.out.println("latestVersion: " + latestVersion);
            scanner.close();
            inputStream.close();
            return true;
        }
    }
    scanner.close();
    inputStream.close();
    return false;
}

只需提示:任何与互联网的连接都使用Thread来确保您的数据全部下载,这可能需要很长时间。