Java:解析html文件并提取文本

时间:2013-05-20 17:34:41

标签: java parsing

我想解析HTML文件并存储粗体文本(在<b>标记内)。一种解决方案是逐行读取文件并拆分或使用RegEx。这意味着我应该将整个页面存储在String变量中?如果我不将它保存在变量中,那么我无法保证标记的开头和它的结尾在同一行。

您建议使用什么解决方案?

2 个答案:

答案 0 :(得分:5)

使用JSoup解析内容

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);

答案 1 :(得分:0)

  

这是我的大学项目

使用HTMLEditorKit.ParserCallback