java - 使用java html解析器进行文本提取

时间：2010-04-09 18:37:38

标签： java html text parsing extraction

我想使用一个html解析器，以一种漂亮，优雅的方式执行以下操作

到目前为止我的调查jericho似乎很合适。你们推荐的其他任何开源库？

答案 0 :(得分：2)

我最近尝试过HtmlCleaner和CyberNekoHtml。 CyberNekoHtml是一个DOM / SAX解析器，可以产生可预测的结果。 HtmlCleaner有点快，但往往无法产生准确的结果。

我会推荐CyberNekoHtml。 CyberNekoHtml可以完成你提到的所有事情。例如，提取所有元素及其属性的列表非常容易。如果你想重建页面，就可以遍历DOM树，将每个元素构建回HTML。

这里有一个开源java html解析器列表： http://java-source.net/open-source/html-parsers

答案 1 :(得分：1)

我肯定会选择JSoup。

非常优雅的图书馆，完全符合您的需求。

答案 2 :(得分：0)

我最终使用HtmlCleaner http://htmlcleaner.sourceforge.net/来做类似的事情。它非常易于使用，并且可以快速满足我的需求。