我正在做一个项目,其中我需要读取HTML文件并识别特定标签,修改标签的内容以及创建新的HTML文件。是否有一个解析HTML标记的库,并且能够将标记写回新文件?
答案 0 :(得分:6)
查看http://jsoup.org,它有一个友好的dom-like API,用于简单的任务,你不需要解析html。
答案 1 :(得分:2)
答案 2 :(得分:2)
如果你想修改网页并返回修改后的内容,我认为最好的方法是使用XSL转换
http://en.wikipedia.org/wiki/XSLT
答案 3 :(得分:0)
查看http://java-source.net/open-source/html-parsers以获取将html文件解析为可以操作的java对象的java库列表。
如果您正在使用的html文件格式正确(xhtml),那么您还可以在java中使用XML库来查找特定标记并对其进行修改。 IO本身应由您正在使用的特定库处理。
如果您选择手动解析字符串,则可以使用正则表达式查找特定标记,并使用java io库写入文件并创建新的html文档。但是这种方法可以重新发明轮子,因为你必须管理标签的打开和关闭,所有这些都由预先存在的库处理。