我看过jTidy将一段错误的/现实世界的HTML转换为格式良好的HTML / XHTML。但是,最新版本中存在一个错误,因为我无法使用它。我正在看杰里科,因为它在网上有很多积极的评论。
然而,对我来说,如何实现一个像以下方法的方法并不是很明显:
public String getValidHTML(String messedUpHTML)
例如,如果传递<div>bar
,则会返回<div>bar</div>
任何指针都会有所帮助。
提前致谢!
答案 0 :(得分:1)
Jericho's HTMLSanitiser sample可能是一个好的开始。
然而,请记住,jericho的关键优势在于它能够解析和操纵格式错误的HTML,而保持原始的“坏”格式。但是,看看图书馆如何执行这样的任务会很有趣。