我有一个像这样的HTML代码段:
<a href="XXXXXXXXXXXXXXX" target="_blank" class="view_job_link">View or apply to job</a>
我想使用Java读取href值XXXXXXXXXX。
注意:我正在使用inputstreamreader(url.openStream())从URL读取HTML文件。
我收到了一个完整的HTML文件,上面的代码段是该文件的一部分。
我该怎么做?
由于
Karunjay Anand
答案 0 :(得分:3)
使用像Jsoup这样的html解析器。 API易于学习,对于您的情况,以下代码段将执行
URL url = new URL("http://example.com/");
Document doc = Jsoup.parse(url, 3*1000);
Elements links = doc.select("a[href]"); // a with href
for (Element link : links) {
System.out.println("Href = "+link.attr("abs:href"));
}
答案 1 :(得分:1)
使用像TagSoup之类的HTML解析器或类似的东西。
答案 2 :(得分:0)
您可以使用Java自己的HtmlEditorKit来解析html。这样你就不需要依赖任何第三方html解析器了。 Here是如何使用它的一个示例。