从html文件获取信息

时间:2012-06-22 15:49:28

标签: java html parsing

我正在编写一个程序,我从页面获取信息并将其放在excel文件中。

问题是,我找不到使用特定信息搜索标签的方法。

这是我的代码(到目前为止):

  private void getAll() throws IOException {

    for (int i = 0;i<250;i++){
        URL vurl = new URL("http://www.bamart.be/nl/artists/detail/" + i);
        BufferedReader reader = new BufferedReader(new InputStreamReader(vurl.openStream()));
        String line;
        while ((line = reader.readLine()) != null){
          if (line.equalsIgnoreCase("<div class=\"subcontent\">"){ 
            System.out.println("Found info!");
          }

            printInfo(line,i);
        }
        }
    }


private void printInfo(String info,int i){
        System.out.println("/***********************************************/");
        System.out.println("************\t" + info + "**********************/");
        System.out.println("/************" +" Artist page:" +  i + " of 999 **********************/" );


    }

println没有出现,但它在html文件中。

2 个答案:

答案 0 :(得分:0)

if (line.equalsIgnoreCase("<div class=\"subcontent\">"){ }

这个if语句正在检查是否完全相等(忽略大小写)但是该行上可能还有其他内容,例如空格。

你可能会想要的是

if (line.toLowerCase().contains("<div class=\"subcontent\">") { }

答案 1 :(得分:0)

尝试从Jsoup

开始使用this example