使用Jsoup HTML Parser解析注释标记

时间:2016-02-04 18:16:09

标签: html parsing jsoup

我正在使用基本的解析器程序解析一个简单的HTML文档。

Document doc = Jsoup.parse(responseFromServer);

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
String linkText = null;
for (Element link : links) {      
  linkText = link.text();
}

有些标签被注释掉了。我还想在注释中解析这些标签。由于我无法访问HTML输出源,因此无法编辑文件和删除评论。

我如何解析评论标签?

1 个答案:

答案 0 :(得分:2)

Jsoup默认忽略评论。要解析它们,您可以在解析之前转换html字符串。一些事情

 htmlStr = htmlStr.replaceAll("<!--|-->","");
 document doc = Jsoup.parser(htmlStr);

如果注释掉的html实际上或多或少是有效的HTML,那么这只能正常运行。如果它只是文本,您可能需要以不同的方式进行转换。