使用Java读取锚标记内的href

时间:2010-08-14 17:47:23

标签: java regex

我有一个像这样的HTML代码段:

<a href="XXXXXXXXXXXXXXX" target="_blank" class="view_job_link">View or apply to job</a>

我想使用Java读取href值XXXXXXXXXX。

注意:我正在使用inputstreamreader(url.openStream())从URL读取HTML文件。

我收到了一个完整的HTML文件,上面的代码段是该文件的一部分。

我该怎么做?

由于

Karunjay Anand

3 个答案:

答案 0 :(得分:3)

使用像Jsoup这样的html解析器。 API易于学习,对于您的情况,以下代码段将执行

URL url = new URL("http://example.com/");
Document doc = Jsoup.parse(url, 3*1000);
Elements links = doc.select("a[href]"); // a with href
for (Element link : links) {
   System.out.println("Href = "+link.attr("abs:href"));
}

答案 1 :(得分:1)

使用像TagSoup之类的HTML解析器或类似的东西。

答案 2 :(得分:0)

您可以使用Java自己的HtmlEditorKit来解析html。这样你就不需要依赖任何第三方html解析器了。 Here是如何使用它的一个示例。