根据属性提取html标签

时间:2013-08-06 16:39:37

标签: java html

我有一个已抓取的网页,我已将该网页的html检索到String个对象中。

现在我想解析这个字符串,并提取所有itemprop定义到一个数组的标签,这些标签将是关联的,例如

String[] itemprops;
itemprops['title'] = "Some title";
itemprops['description'] = "Some description";

我能以某种方式使用正则表达式进行此操作,还是有一些库可以执行此操作。

2 个答案:

答案 0 :(得分:3)

看看JSoup。这是一个HTML抓取和解析库,正是你想要的。

在您的情况下,您可以执行以下操作:

Document doc = Jsoup.parse(HTMLString);
String title = doc.select("title").text();
String description = doc.select("meta[name=description]").attr("content");

select()函数使用CSS selectors来获取元素。

答案 1 :(得分:0)

还要确保您使用的html遵循严格的语法。因为破解语法可能导致解析异常或丢失数据。