我的XML格式错误。具体来说,我希望每个未结束的标签都得到纠正。我如何匹配这样的模式并使用ReplaceAll来做到这一点?
Pattern r = "<img.*?[^/]>" // sth like that?
答案 0 :(得分:4)
你忘记了分号:)
不用说,使用(X)HTML解析器/清理API可以将tagsoup(HTML)转换为XHTML。在每个JTidy下,可以在一次通话中执行此操作:
new Tidy().parseDOM(inputStream, outputStream);
正则表达式根本不适合这项工作。