Java Html解析器提取特定数据?

时间:2012-08-15 14:15:03

标签: java html-parsing web-scraping

我有一个像以下

的html文件
...
<span itemprop="A">234</span>
...
<span itemprop="B">690</span>
...

在此我想提取值为A和B.
你能建议任何可以轻松实现这一目标的java html解析器库吗?

3 个答案:

答案 0 :(得分:3)

就个人而言,我赞成 JSoup 而不是 JTidy 。它有类似CSS selectors,文档更好,imho。使用JSoup,您可以使用以下行轻松提取这些值:

Document doc = Jsoup.connect("your_url").get();
Elements spans = doc.select("span[itemprop]");

for (Element span : spans) {
  System.out.println(span.text()); // will print 234 and 690
}

答案 1 :(得分:1)

http://jsoup.org/

JSoup是要走的路。

答案 2 :(得分:1)

JTidy是一个容易混淆但又受人尊敬的HTML解析器。