我想使用一个html解析器,以一种漂亮,优雅的方式执行以下操作
到目前为止我的调查jericho似乎很合适。你们推荐的其他任何开源库?
答案 0 :(得分:2)
我最近尝试过HtmlCleaner和CyberNekoHtml。 CyberNekoHtml是一个DOM / SAX解析器,可以产生可预测的结果。 HtmlCleaner有点快,但往往无法产生准确的结果。
我会推荐CyberNekoHtml。 CyberNekoHtml可以完成你提到的所有事情。例如,提取所有元素及其属性的列表非常容易。如果你想重建页面,就可以遍历DOM树,将每个元素构建回HTML。
这里有一个开源java html解析器列表: http://java-source.net/open-source/html-parsers
答案 1 :(得分:1)
答案 2 :(得分:0)
我最终使用HtmlCleaner http://htmlcleaner.sourceforge.net/来做类似的事情。它非常易于使用,并且可以快速满足我的需求。