我有一个已抓取的网页,我已将该网页的html检索到String
个对象中。
现在我想解析这个字符串,并提取所有itemprop
定义到一个数组的标签,这些标签将是关联的,例如
String[] itemprops;
itemprops['title'] = "Some title";
itemprops['description'] = "Some description";
我能以某种方式使用正则表达式进行此操作,还是有一些库可以执行此操作。
答案 0 :(得分:3)
看看JSoup。这是一个HTML抓取和解析库,正是你想要的。
在您的情况下,您可以执行以下操作:
Document doc = Jsoup.parse(HTMLString);
String title = doc.select("title").text();
String description = doc.select("meta[name=description]").attr("content");
select()函数使用CSS selectors来获取元素。
答案 1 :(得分:0)
还要确保您使用的html遵循严格的语法。因为破解语法可能导致解析异常或丢失数据。