应用错误收集

使用Java读取锚标记内的href

时间：2010-08-14 17:47:23

标签： java regex

我有一个像这样的HTML代码段：

<a href="XXXXXXXXXXXXXXX" target="_blank" class="view_job_link">View or apply to job</a>

我想使用Java读取href值XXXXXXXXXX。

注意：我正在使用inputstreamreader（url.openStream（））从URL读取HTML文件。

我收到了一个完整的HTML文件，上面的代码段是该文件的一部分。

我该怎么做？

由于

Karunjay Anand

3 个答案:

答案 0 :(得分：3)

使用像Jsoup这样的html解析器。 API易于学习，对于您的情况，以下代码段将执行

URL url = new URL("http://example.com/");
Document doc = Jsoup.parse(url, 3*1000);
Elements links = doc.select("a[href]"); // a with href
for (Element link : links) {
   System.out.println("Href = "+link.attr("abs:href"));
}

答案 1 :(得分：1)

使用像TagSoup之类的HTML解析器或类似的东西。

答案 2 :(得分：0)

您可以使用Java自己的HtmlEditorKit来解析html。这样你就不需要依赖任何第三方html解析器了。 Here是如何使用它的一个示例。