在html代码中搜索和保存指定链接

时间:2012-12-28 22:33:05

标签: java string search image bufferedreader

</div><div class="tr">
  </div><div class="bl">
  </div><div class="br">
  </div>  <img src="http://blablabla.com/medium/blablabla.jpg" />
</div></a>
          </div><div class="meta">
<h3 class="action">
<span>
    <a href="/abc">ABC</a>
  </span> a picture
</h3>        

我将网站的HTML源代码保存到字符串中,其中包含以下内容:

  public static BufferedReader read(String url) throws Exception
  {
    return new BufferedReader(
        new InputStreamReader(
            new URL(url).openStream()));
  }

在这段代码中,我想将所有图片网址保存在一个新的字符串中,并且在内部使用 / medium / 进行连接,以便使字符串中的所有图像链接更加简洁\ n。 怎么应该是这个过程?提前谢谢

1 个答案:

答案 0 :(得分:1)

您可以使用JSoup获取图片代码并执行简单的String.contains来获取您要查找的图片代码,而不是尝试自行解析HTML内容。

Document doc = Jsoup.connect("http://www.blah.com/foo.html");
for (Element e : doc.select("img")) {
    String imageSrc = e.attr("src");
    if (imageSrc.contains("/medium/")) {
     ...
    }
}

另外avoid using regex to parse HTML