使用java html解析器进行文本提取

时间:2010-04-09 18:37:38

标签: java html text parsing extraction

我想使用一个html解析器,以一种漂亮,优雅的方式执行以下操作

  1. 提取文字(这是最重要的)
  2. 提取链接,元关键字
  3. 重建原始文档(可选但很好的功能)
  4. 到目前为止我的调查jericho似乎很合适。你们推荐的其他任何开源库?

3 个答案:

答案 0 :(得分:2)

我最近尝试过HtmlCleaner和Cyber​​NekoHtml。 Cyber​​NekoHtml是一个DOM / SAX解析器,可以产生可预测的结果。 HtmlCleaner有点快,但往往无法产生准确的结果。

我会推荐Cyber​​NekoHtml。 Cyber​​NekoHtml可以完成你提到的所有事情。例如,提取所有元素及其属性的列表非常容易。如果你想重建页面,就可以遍历DOM树,将每个元素构建回HTML。

这里有一个开源java html解析器列表: http://java-source.net/open-source/html-parsers

答案 1 :(得分:1)

我肯定会选择JSoup。

非常优雅的图书馆,完全符合您的需求。

See Example Here

答案 2 :(得分:0)

我最终使用HtmlCleaner http://htmlcleaner.sourceforge.net/来做类似的事情。它非常易于使用,并且可以快速满足我的需求。